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这 是 一 个 激动 人 心 的 时 刻 ， 成 千 上 万 的 企业 在 使 用 Kafka， 三 分 之 一 多 的 世界 500 强 公司 
也 在 其 中 。Kafka 是 成 长 最 快 的 开源 项 目 之 一 ， 它 的 生态 系统 也 在 连 勃 发 展 。Kafka 正在 成 
为 管理 和 处 理 流 式 数 据 的 利器 。 


Kafka 从 何 而 来 ?我 们 为 什么 要 开发 Kafka ? Kafka 到 底 是 什么 ? 


Kafka 最 初 是 LinkedIn 的 一 个 内 部 基础 设施 系统 。 我 们 发 现 ， 虽 然 有 很 多 数据 库 和 系统 可 
以 用 来 存储 数据 ， 但 在 我 们 的 架构 里 ， 刚 好 缺 一 个 可 以 帮助 处 理 持续 数据 流 的 组 件 。 在 开 
发 Kafka 之 前 ， 我 们 实验 了 各 种 现成 的 解决 方案 ， 从 消息 系统 到 日 志 聚 合 系统 ， 再 到 ETL 
工具 ， 它 们 都 无 法 满足 我 们 的 需求 。 

最 后 ， 我 们 决定 从 头 开发 一 个 系统 。 我 们 不 想 只 是 开发 一 个 能 够 存储 数据 的 系统 ， 比 如 
传统 的 关系 型 数据 库 、 键 值 存储 引擎 、 搜 索引 擎 或 缓存 系统 ， 我 们 希望 能 够 把 数据 看 成 
是 持续 变化 和 不 断 增长 的 流 ， 并 基于 这 样 的 想法 构建 出 一 个 数据 系统 ， 事 实 上， 是 一 个 
数据 架构 。 


这 个 想法 实现 后 比 我 们 最 初 预 想 的 适用 性 更 广 。Kafka 一 开始 被 用 在 社交 网 络 的 实时 应 用 
和 数据 流 当 中 ， 而 现在 已 经 成 为 下 一 代数 据 架构 的 基础 。 大 型 零售 商 正在 基于 持续 数据 流 
改造 他 们 的 基础 业务 流程 ， 汽 车 公司 正在 从 互联 网 汽车 那里 收集 和 处 理 实时 数据 流 ， 银 行 
也 在 重新 思考 基于 Kafka 改造 他 们 的 基础 流程 和 系统 。 

那么 Kafka 在 这 当中 充当 了 怎样 的 角色 ? 它 与 现 有 的 系统 有 什么 区 别 ? 

我 们 认为 Kafka 是 一 个 流 平 台 : 在 这 个 平台 上 可 以 发 布 和 订阅 数据 流 ， 并 把 它们 保存 起 
来 、 进 行 处 理 ， 这 就 是 构建 Kafka 的 初衷 。 以 这 种 方式 来 看 待 数据 确实 与 人 们 习惯 的 想法 
有 所 不 同 ， 但 它 确实 在 构建 应 用 和 架构 方面 表现 出 了 强大 的 抽象 能 力 。Kafka 经 常会 被 拿 
来 与 现 有 的 技术 作 比 较 : 企业 级 消息 系统 、 大 数据 系统 (如 Hadoop) 和 数据 集成 或 ETL 
工具 。 这 里 的 每 一 项 比较 都 有 一 定 的 道理 ， 但 也 有 失 偏 颇 。 

Kafka 有 点 像 消息 系统 ， 人 允许 发 布 和 订阅 消息 流 。 从 这 点 来 看 ， 它 类 似 于 ActiveMQ、 
RabbitMQ 或 IJBM 的 MQSeries 等 产品 。 尽 管 看 上 去 有 些 相似 ， 但 Kafka 与 这 些 传统 的 消 
息 系 统 仍 然 存 在 很 多 重要 的 不 同 点 ， 这 些 差异 使 它 完全 不 同 于 消息 系统 。 首 先 ， 作 为 一 
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个 现代 的 分 布 式 系统 ，Kafka 以 集群 的 方式 运行 ， 可 以 自由 伸缩 ， 处 理 公司 的 所 有 应 用 程 
序 。Kafka 集群 并 不 是 一 组 独立 运行 的 broker， 而 是 一 个 可 以 灵活 伸缩 的 中 心平 台 ， 可 以 
处 理 整 个 公司 所 有 的 数据 流 。 其 次 ，Kafka 可 以 按照 你 的 要 求 存储 数据 ， 保 存 多 和 久 都 可 以 。 
作为 数据 连接 层 ，Kafka 提供 了 数据 传递 保证 一 一 可 复制 、 持 入 化 ， 保 留 多 长 时 间 完 全 可 
以 由 你 来 决定 。 最 后 ， 流 式 处 理 将 数据 处 理 的 层次 提升 到 了 新 高 度 。 消 息 系统 只 会 传递 
消息 ， 而 Kafka 的 流 式 处 理 能 力 让 你 只 用 很 少 的 代码 就 能 够 动态 地 处 理 派生 流 和 数据 集 。 
Kafka 的 这 些 独 到 之 处 足以 让 你 刮目相看 ， 它 不 只 是 “ 另 一 个 消息 队列 ”。 


从 另 一 个 角度 来 看 Kafka， 我 们 会 把 它 看 成 实时 版 的 Hadoop 这 也 是 我 们 设计 和 构建 
Kafka 的 原始 动机 之 一 。Hadoop 可 以 存储 和 定期 处 理 大 量 的 数据 文件 ， 而 Kafka 可 以 存储 
和 持续 处 理 大 型 的 数据 流 。 从 技术 角度 来 看 ， 它 们 有 着 惊人 的 相似 之 处 ， 很 多 人 将 新 兴 的 
流 式 处 理 看 成 批 处 理 的 超 集 。 它 们 之 间 的 最 大 不 同体 现在 持续 的 低 延 迟 处 理 和 批 处 理 之 间 
的 差异 上 。Hadoop 和 大 数据 主要 应 用 在 数据 分 析 上 ， 而 Kafka 因 其 低 延 迟 的 特点 更 适合 用 
在 核心 的 业务 应 用 上 。 业 务 事件 时 刻 在 发 生 ，Kafka 能 够 及 时 对 这 些 事件 作出 响应 ， 基 于 
Kafka 构建 的 服务 直接 为 业务 运营 提供 支撑 ， 提 升 用 户 体验 。 


Kafka 与 ETL 工具 或 其 他 数据 集成 工具 之 间 也 可 以 进行 一 番 比 较 。Kafka 和 这 些 工 具 都 擅 
长 移动 数据 ， 但 我 想 它们 最 大 的 不 同 在 于 Kafka 颠覆 了 传统 的 思维 。Kafka 并 非 只 是 把 数 
据 从 一 个 系统 拆 解 出 来 再 塞 进 另 一 个 系统 ， 它 其 实 是 一 个 面向 实时 数据 流 的 平台 。 也 就 是 
说 ， 它 不 仅 可 以 将 现 有 的 应 用 程序 和 数据 系统 连接 起 来 ， 它 还 能 用 于 加 强 这 些 触发 相同 数 
据 流 的 应 用 。 我 们 认为 这 种 以 数据 流 为 中 心 的 架构 是 非常 重要 的 。 在 某 种 程度 上 说 ， 这 些 
数据 流 是 现代 数字 科技 公司 的 核心 ， 与 他 们 的 现金 流 一 样 重要 。 

将 上 述 的 三 个 领域 聚合 在 一 起 ， 将 所 有 的 数据 流 整合 到 一 起 ， 流 平台 因此 变 得 极 具 吸 
引力 。 

当然 ， 除 了 这 些 不 同 点 之 外 ， 对 于 那些 习惯 了 开发 请 求 与 响应 风格 应 用 和 关系 型 数据 库 的 
人 来 说 ， 要 学 会 基于 持续 数据 流 构建 应 用 程序 也 着 实 是 一 个 巨大 的 思维 转变 。 借 助 这 本 书 
来 学 习 Kafka 再 好 不 过 了 ， 从 内 部 架构 到 API， 都 是 由 对 Kafka 最 了 解 的 人 亲手 呈现 的 。 
我 希望 你 们 能 够 像 我 一 样 喜欢 这 本 书 ! 





























































































































































































































Jay Kreps, Confluent 联合 创始 人 兼 CEO 
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到 
mi 


给 予 一 个 技术 书籍 作者 最 好 的 赞赏 莫 过 于 这 句 话 一 “如 果 在 一 开始 接触 这 门 技术 时 能 
到 这 本 书 就 好 了 ”。 在 开始 写 这 本 书 的 时 候 ， 我 们 就 是 以 这 名 话 作为 写作 目标 。 我 们 开发 
Kafka， 在 生产 环境 运行 Kafka， 帮 助 很 多 公司 构建 基于 Kafka 的 系统 ， 帮 助 他 们 管理 数据 
管道 ， 积 累 了 很 多 经 验 ， 但 也 困惑 :“ 应 该 把 哪些 东西 分 享 给 Kafka 新 用 户 ， 让 他 们 从 新 
手 变 成 专家 ? ”这 本 书 就 是 我 们 日 常 工作 最 好 的 写照 : 运行 Kafka 并 帮助 其 他 人 更 好 地 使 
用 Kafka。 

我 们 相信 ， 书 中 提供 的 这 些 内 容 能 够 帮助 Kafka 用 户 在 生产 环境 运行 Kafka 以 及 基于 
Kafka 构建 健壮 的 高 性 能 应 用 程序 。 我 们 列举 了 一 些 非 常 流行 的 应 用 场景 : 用 于 事件 驱动 
微服 务 系统 的 消息 总 线 、 流 式 应 用 和 大 规模 数据 管道 。 这 本 书 通 俗 易 懂 ， 能 够 帮助 每 一 个 
Kafka 用 户 在 任意 的 架构 或 应 用 场景 里 使 用 好 Kafka。 书 中 介绍 了 如 何 安装 和 配置 Kafka、 
如 何 使 用 Kafka API、Katfka 的 设计 原则 和 可 靠 性 保证 ， 以 及 Kafka 的 一 些 架构 细节 ， 如 复 
制 协议 、 控 制 器 和 存储 层 。 我 们 相信 ，Kafka 的 设计 原理 和 内 部 架构 不 仅 会 成 为 分 布 式 系 
统 构建 者 的 兴趣 所 在 ， 对 于 那些 在 生产 环境 部 署 Kafka 或 使 用 Kafka 构建 应 用 程序 的 人 来 
说 也 是 非常 有 用 的 。 越 是 了 解 Kafka， 就 越 是 能 够 更 好 地 作出 权衡 。 


在 软件 工程 里 ， 条 条 道路 通 罗 马 ， 每 一 个 问题 都 有 多 种 解决 方案 。Kafka 为 专家 级 别 的 用 
户 提供 了 巨大 的 灵活 性 ， 而 新 手 则 需要 克服 陡峭 的 学 习 曲 线 才能 成 为 专家 。Kafka 通常 会 
告诉 你 如 何 使 用 某 个 功能 特性 ， 但 不 会 告诉 你 为 什么 要 用 它 或 者 为 什么 不 该 用 它 。 我 们 会 
尽 可 能 地 解释 我 们 的 设计 决策 和 权衡 背后 的 缘由 ， 以 及 用 户 在 哪些 情况 下 应 该 或 不 应 该 使 
用 Kafka 提供 的 特性 。 


读者 对 象 


这 本 书 是 为 使 用 Kafka API 开发 应 用 程序 的 工程 师 和 在 生产 环境 安装 、 配 置 、 调 优 、 监 控 
Kafka 的 运 维 工程 师 (也 可 以 叫 作 SRE、 运 维 人 员 或 系统 管理 员 ) 而 写 的 。 我 们 也 考虑 到 
了 数据 架构 师 和 数据 工程 师 ， 他 们 负责 设计 和 构建 整个 组 织 的 数据 基础 架构 。 某 些 章节 
(特别 是 第 3 章 、 第 4 章 和 第 11 章 ) 主要 面向 Java 开发 人 员 ， 并 假设 读者 已 经 熟悉 基本 的 
Java 语言 编程 ， 比 如 异常 处 理 和 并 发 编程 。 其 他 章节 (特别 是 第 2 章 、 第 8 章 、 第 9 章 和 
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第 10 章 ) 则 假设 读者 在 Linux 的 运行 、 存 储 和 网 络 配置 方面 有 一 定 的 经 验 。 本 书 的 其 余部 
分 则 讨论 了 一 般 性 的 软件 架构 ， 不 要 求 读 者 具备 特定 的 知识 。 

另 一 类 可 能 对 本 书 感 兴趣 的 人 是 那些 经 理 或 架构 师 ， 他 们 不 直接 使 用 Kafka， 但 会 与 使 用 
Kafka 的 工程 师 打 交道 。 他 们 有 必要 了 解 Kafka 所 能 提供 的 保证 机 制 ， 以 及 他 们 的 同事 在 
构建 基于 Kafka 的 系统 时 所 作出 的 权衡 。 这 本 书 可 以 成 为 企业 管理 人 员 的 利器 ， 确 保 他们 
































的 工程 师 在 Kafka 方面 训练 有 素 ， 让 他 们 的 团队 了 解 他 们 本 该 知道 的 知识 。 














排版 约定 
本 书 使 用 了 下 列 排 版 约定 。 


。 黑体 
表示 新 术语 或 重点 强调 的 内 容 。 


。 等 宽 字 体 (constant width) 





表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 函 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 语 句 


和 关键 字 等 。 
。 加 粗 等 宽 字 体 (constant width bold) 
表示 应 该 由 用 户 输 入 的 命令 或 其 他 文本 。 


。 等 宽 斜 体 (constant width italic) 


表示 应 该 由 用 户 输入 的 值 或 根据 上 下 文 确定 的 值 替换 的 文本 。 











该 图 标 表 示 提 示 或 建议 。 





该 图 标 表示 一 般 注 记 。 











使 用 代码 示例 


本 书 是 要 帮 你 完成 工作 的 。 一 般 来 说 ， 如 果 本 和 




















局 提供 了 示例 代码 ， 你 可 以 把 它 用 在 你 的 程 


序 或 文档 中 。 除 非 你 使 用 了 很 大 一 部 分 代码 ， 否 则 无 需 联系 我 们 获得 许可 。 比 如 ， 用 本 书 
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的 几 个 代码 片段 写 一 个 程序 就 无 需 获 得 许可 ， 销 售 或 分 发 O'Reilly 图 书 的 示例 光盘 则 需要 
获得 许可 ;， 引 用 本 书 中 的 示例 代码 回答 问题 无 需 获得 许可 ， 将 书 中 大 量 的 代码 放 到 你 的 产 
品 文档 中 则 需要 获得 许可 。 

我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。 引 用 说 明 一 般 包 括 书 名 、 
作者 、 出 版 社 和 ISBN。 例 如 “Kafka 权威 指南 ， 作 者 Neha Narkhede、Gwen Shapira 和 
Todd Palino (O’Reilly)， 版 权 归 Neha Narkhede、Gwen Shapira 和 Todd Palino 所 有 ，978- 
1-4919-3616-0”。 


如 果 你 觉得 自己 对 示例 代码 的 用 法 超出 了 上 述 许可 的 范围 ， 欢 迎 你 通过 permissions@ 
oreilly.com 与 我 们 联系 。 


O’Reilly Safari 
4 Safari Safari (原来 叫 Safari Books Online) 是 面向 企业 、 政 府 、 教 育 从 

















业者 和 个 人 的 会 员 制 培训 和 参考 咨询 平台 。 


我 们 向 会 员 开 放 成 千 上 万 本 图 书 以 及 培训 视频 、 学 习 路 线 、 交 互 式 教 程 和 专业 视频 。 这 
些 资源 来 自 250 多 家 出 版 机 构 ， 其 中 包括 O'Reilly Media、Harvard Business Review、 
Prentice Hall Professional、 Addison-Wesley Professional、 Microsoft Press、Sams、Qnue、 
Peachpit Press、 Adobe、Focal Press、Cisco Press、 John Wiley & Sons、 Syngress、 Morgan 
Kaufmann、 IBM Redbooks、Packt、Adobe Press、 FT Press、 Apress、 Manning、New 
Riders、 McGraw-Hill、Jones & Bartlett 和 Course Technology。 


更 多 信息 ， 请 访问 http://oreilly.com/safari。 


联系 我 们 


请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 
美国 : 


O’Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 


中 国 : 


北京 市 西城 区 西直门 南大 街 2 号 成 馈 大 厦 C 座 807 室 (100035) 
奥 莱 利 技术 咨询 (北京 ) 有 限 公 司 


O'Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 本 书 的 相关 信息 ， 包 括 勘 误 表 、 示 
例 代码 以 及 其 他 信息 。 本 书 的 网 站 地 址 是 http://oreil.ly/2tVmYjk。 


对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电 子 邮件 到 : bookquestions@oreilly.com 
要 了 解 更 多 O’Reilly 图 书 、 培 训 课 程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 站 : 


http://www.oreilly.com 
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数据 为 企业 的 发 展 提供 动力 。 我 们 从 数据 中 获取 信息 ， 对 它们 进行 分 析 处 理 ， 然 后 生成 更 
多 的 数据 。 每 个 应 用 程序 都 会 产生 数据 ， 包 括 日 志 消 息 、 度 量 指 标 、 用 户 活动 记录 、 响 应 
消息 等 。 数 据 的 点 点 滴 滴 都 在 上 暗示 一 些 重要 的 事情 ， 比 如 下 一 步行 动 的 方向 。 我 们 把 数据 
从 源头 移动 到 可 以 对 它们 进行 分 析 处 理 的 地 方 ， 然 后 把 得 到 的 结果 应 用 到 实际 场景 中 ， 这 
样 才能 够 确切 地 知道 这 些 数据 要 告诉 我 们 什么 。 例 如 ， 我 们 每 天 在 Amazon 网 站 上 浏览 感 
兴趣 的 商品 ， 浏 览 信息 被 转化 成 商品 推荐 ， 并 在 稍 后 展示 给 我 们 。 


这 个 过 程 完成 得 越 快 ， 组 织 的 反应 就 越 敏捷 。 花 费 越 少 的 精力 在 数据 移动 上 ， 就 越 能 专注 
于 核心 业务 。 这 就 是 为 什么 在 一 个 以 数据 为 驱动 的 企业 里 ， 数 据 管 道 会 成 为 关键 性 组 件 。 
如 何 移动 数据 ， 几 乎 变 得 与 数据 本 身 一 样 重 要 。 

每 一 次 科学 家 们 发 生 分 歧 ， 都 是 因为 掌握 的 数据 不 够 充分 。 所 以 我 们 可 以 先 就 获 

取 哪 一 类 数据 达成 一 致 。 只 要 获取 了 数据 ， 问 题 也 就 迎刃而解 了 。 要 么 我 是 对 

的 ， 要 么 你 是 对 的 ， 要 么 我 们 都 是 错 的 。 然 后 我 们 继续 研究 。 












































Neil deGrasse Tyson 


1.1 发 布 与 订阅 消息 系统 


在 正式 讨论 Apache Kafka (以 下 简称 Kafka) 之 前 ， 先 来 了 解 发 布 与 订阅 消息 系统 的 概念 ， 
并 认识 这 个 系统 的 重要 性 。 数 据 (消息 ) 的 发 送 者 (发布 者 ) 不 会 直接 把 消息 发 送 给 接收 
者 ， 这 是 发 布 与 订阅 消息 系统 的 一 个 特点 。 发 布 者 以 某 种 方式 对 消息 进行 分 类 ， 接 收 者 
(订阅 者 ) 订阅 它们 ， 以 便 接收 特定 类 型 的 消息 。 发 布 与 订阅 系统 一 般 会 有 一 个 broker， 也 
就 是 发 布 消息 的 中 心 点 。 





1.1.1 如 何 开 始 

发 布 与 订阅 消息 系统 的 大 部 分 应 用 场景 都 是 从 一 个 简单 的 消息 队列 或 一 个 进程 间 通道 开始 
的 。 例 如 ， 你 的 应 用 程序 需要 往 别处 发 送 监控 信息 ， 可 以 直接 在 你 的 应 用 程序 和 另 一 个 可 
以 在 仪表 盘 上 显示 度量 指标 的 应 用 程序 之 间 建 立 连 接 ， 然 后 通过 这 个 连接 推送 度量 指标 ， 
如 图 1-1 所 示 。 


















































图 1-1: 单个 直 连 的 度量 指标 发 布 者 


这 是 刚 接 触 监 控 系 统 时 简单 问题 的 应 对 方案 。 过 了 不 久 ， 你 需要 分 析 更 长 时 间 片 段 的 度量 
指标 ， 而 此 时 的 仪表 盘 程序 满足 不 了 需求 ， 于 是 ， 你 启动 了 一 个 新 的 服务 来 接收 度量 指 
标 。 该 服务 把 度量 指标 保存 起 来 ， 然 后 进行 分 析 。 与 此 同时 ， 你 修改 了 原来 的 应 用 程序 ， 
把 度量 指标 同时 发 送 到 两 个 仪表 盘 系 统 上 。 现 在 ， 你 又 多 了 3 个 可 以 生成 度量 指标 的 应 用 
程序 ， 它 们 都 与 这 两 个 服务 直接 相连 。 而 你 的 同事 认为 最 好 可 以 对 这 些 服务 进行 轮 询 以 便 
获得 告警 功能 ， 于 是 你 为 每 一 个 应 用 程序 增加 了 一 个 服务 器 ， 用 于 提供 度量 指标 。 再 过 

阵子 ， 有 更 多 的 应 用 程序 出 于 各 自 的 目的 ， 都 从 这 些 服务 器 获取 度量 指标 。 这 时 的 架构 看 
起 来 就 像 图 1-2 所 示 的 那样 ， 市 点 间 的 连接 一 团 糟 。 




































































图 1-2: 多 个 直 连 的 度量 指标 发 布 者 


这 时 ， 技 术 债务 开始 凸显 出 来 ， 于 是 你 决定 偿还 掉 一 些 。 你 创建 了 一 个 独立 的 应 用 程序 ， 
用 于 接收 来 自 其 他 应 用 程序 的 度量 指标 ， 并 为 其 他 系统 提供 了 一 个 查询 服务 器 。 这 样 ， 之 
前 架构 的 复杂 度 被 降低 到 图 1-3 所 示 的 那样 。 那 么 蕉 喜 你 ， 你 已 经 创建 了 一 个 基于 发 布 与 
订阅 的 消息 系统 。 












































2 | 第 1 章 













发 布 与 订阅 
度量 指标 
指标 分 析 








图 1-3: 度量 指标 发 布 与 订阅 系统 


1.1.2 ”独立 的 队列 系统 

在 你 跟 度量 指标 打 得 不 可 开交 的 时 候 ， 你 的 一 个 同事 也 正在 跟 日 志 消 息 奋 战 。 还 有 男 一 个 
同事 正在 跟踪 网 站 用 户 的 行为 ， 为 负责 机 器 学 习 开 发 的 同事 提供 信息 ， 同 时 为 管理 团队 生 
成 报告 。 你 和 同事 们 使 用 相同 的 方式 创建 这 些 系 统 ， 解 看 信息 的 发 布 者 和 订阅 者 。 图 1-4 
所 示 的 架构 包含 了 3 个 独立 的 发 布 与 订阅 系统 。 
















































































图 1-4: 多 个 发 布 与 订阅 系统 


这 种 方式 比 直接 使 用 点 对 点 的 连接 (图 1-2) 要 好 得 多 ， 但 这 里 有 太 多 重复 的 地 方 。 你 的 
公司 因此 要 为 数据 队列 维护 多 个 系统 ， 每 个 系统 又 有 各 自 的 缺陷 和 不 足 。 而 且 ， 接 下 来 可 
能 会 有 更 多 的 场景 需要 用 到 消息 系统 。 此 时 ， 你 真正 需要 的 是 一 个 单一 的 集中 式 系统 ， 它 
可 以 用 来 发 布 通用 类 型 的 数据 ， 其 规模 可 以 随 着 公司 业务 的 增长 而 增长 。 























初 识 Kafka | 3 


1.2 ”Kafka 登 场 


Kafka 就 是 为 了 解决 上 述 问题 而 设计 的 一 款 基于 发 布 与 订阅 的 消息 系统 。 它 一 般 被 称 为 
“分 布 式 提交 日 志 ” 或 者 “分 布 式 流 平台 ”。 文 件 系 统 或 数据 库 提交 日 志 用 来 提供 所 有 事务 
的 持久 记录 ， 通 过 重 放 这 些 日 志 可 以 重建 系统 的 状态 。 同 样 地 ，Kafka 的 数据 是 按照 一 定 
顺序 持久 化 保存 的 ， 可 以 按 需 读 取 。 此 外 ，Kafka 的 数据 分 布 在 整个 系统 里 ， 具 备 数 据 故 
障 保护 和 性 能 伸缩 能 


1.2.1 消息 和 批 次 


Kafka 的 数据 单元 被 称 为 消息 。 如 果 你 在 使 用 Kafka 之 前 已 经 有 数据 库 使 用 经 验 ， 那 么 可 
以 把 消息 看 成 是 数据 库 里 的 一 个 “数据 行 ”或 一 条 “记录 。 消 息 由 字 市 数组 组 成 ， 所 以 
对 于 Kafka 来 说 ， 消 息 里 的 数据 没有 特别 的 格式 或 含义 。 消 息 可 以 有 一 个 可 选 的 元 数据 ， 
也 就 是 键 。 键 也 是 一 个 字 节 数组， 与 消息 一 样 ， 对 于 Kafka 来 说 也 没有 特殊 的 含义 。 当 消 
息 以 一 种 可 控 的 方式 写 入 不 同 的 分 区 时 ， 会 用 到 键 。 最 简单 的 例子 就 是 为 键 生成 一 个 一 致 
性 散 列 值 ， 然 后 使 用 散 列 值 对 主题 分 区 数 进行 取 模 ， 为 消息 选取 分 区 。 这 样 可 以 保证 具有 
相同 键 的 消息 总 是 被 写 到 相同 的 分 区 上 。 第 3 章 将 详细 介绍 键 的 用 法 。 


为 了 提高 效率 ， 消 息 被 分 批 次 写 入 Kafka。 批 次 就 是 一 组 消息 ， 这 些 消息 属于 同一 个 主题 
和 分 区 。 如 果 每 一 个 消息 都 单独 穿行 于 网 络 ， 会 导致 大 量 的 网 络 开 销 ， 把 消息 分 成 批 次 传 
输 可 以 减少 网 络 开销 。 不 过 ， 这 要 在 时 间 延 迟 和 吞吐 量 之 间作 出 权衡 : 批 次 越 大 ， 单 位 时 
间 内 处 理 的 销 息 就 越 多 ， 单 个 消息 的 传输 时 间 就 越 长 。 批 次 数据 会 被 压缩 ， 这 样 可 以 提升 
数据 的 传输 和 存储 能 力 ， 但 要 做 更 多 的 计算 处 理 。 


1.2.2 ”模式 


对 于 Kafka 来 说 ， 消 息 不 过 是 隐 汐 难 懂 的 字 节 数组 ， 所 以 有 人 建议 用 一 些 额外 的 结构 来 
定义 消息 内 容 ， 让 它们 更 易于 理解 。 根 据 应 用 程序 的 需求 ， 消 息 模 式 (schema) 有 许多 
可 用 的 选项 。 像 JSON 和 XML 这 些 简单 的 系统 ， 不 仅 易 用 ， 而 且 可 读 性 好 。 不 过 ， 它 们 
缺乏 强 类 型 处 理 能 力 ， 不 同 版 本 之 间 的 兼容 性 也 不 是 很 好 。Kafka 的 许多 开发 者 喜欢 使 用 
Apache Avro， 它 最 初 是 为 Hadoop 开发 的 一 款 序列 化 框架 。Avro 提供 了 一 种 紧凑 的 序列 化 
格式 ， 模 式 和 消息 体 是 分 开 的 ， 当 模式 发 生变 化 时 ， 不 需要 重新 生成 代码 ， 它 还 支持 强 类 
型 和 模式 进化 ， 其 版 本 既 向 前 兼容 ， 也 向 后 兼容 。 


数据 格式 的 一 致 性 对 于 Kafka 来 说 很 重要 ， 它 消除 了 消息 读 写 操作 之 间 的 耦合 性 。 如 果 读 
写 操作 紧密 地 耦合 在 一 起 ， 消 息 订 阅 者 需要 升级 应 用 程序 才能 同时 处 理 新 旧 两 种 数据 格 
式 。 在 消息 订阅 者 升级 了 之 后 ， 消 息 发 布 者 才能 跟着 升级 ， 以 便 使 用 新 的 数据 格式 。 新 的 
应 用 程序 如 果 需 要 使 用 数据 ， 就 要 与 消息 发 布 者 发 生 耦 合 ， 导 致 开 发 者 需要 做 很 多 党 杂 
的 工作 。 定 义 良好 的 模式 ， 并 把 它们 存放 在 公共 仓库 ， 可 以 方便 我 们 理解 Kafka 的 消息 结 
构 。 第 3 章 将 详细 讨论 模式 和 序列 化 。 
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1.2.3 ”主题 和 分 区 


Kafka 的 消息 通过 主题 进行 分 类 。 主 题 就 好 比 数据 库 的 表 ， 或 者 文件 系统 里 的 文件 夹 。 主 
题 可 以 被 分 为 若干 个 分 区 ， 一 个 分 区 就 是 一 个 提交 日 志 。 消 息 以 追加 的 方式 写 和 分区， 然 
后 以 先入 先 出 的 顺序 读 取 。 要 注意 ， 由 于 一 个 主题 一 般 包 含 几 个 分 区 ， 因 此 无 法 在 整个 主 
题 范 围 内 保证 消息 的 顺序 ， 但 可 以 保证 消息 在 单个 分 区 内 的 顺序 。 图 1-5 所 示 的 主题 有 4 
个 分 区 ， 消 息 被 追加 写 入 每 个 分 区 的 尾部 。Kafka 通过 分 区 来 实现 数据 元 余 和 伸缩 性 。 分 
区 可 以 分 布 在 不 同 的 服务 器 上 ， 也 就 是 说 ， 一 个 主题 可 以 横 跨 多 个 服务 器 ， 以 此 来 提供 比 
单个 服务 器 更 强大 的 性 能 。 
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图 1-5: 包含 多 个 分 区 的 主题 表示 



















我 们 通常 会 使 用 流 这 个 词 来 描述 Kafka 这 类 系统 的 数据 。 很 多 时 候 ， 人 们 把 一 个 主题 的 数 
据 看 成 一 个 流 ， 不 管 它 有 多 少 个 分 区 。 流 是 一 组 从 生产 者 移动 到 消费 者 的 数据 。 当 我 们 讨 
论 流 式 处 理 时 ， 一 般 都 是 这 样 描 述 消 息 的 。Kafka Streams、Apache Samza 和 Storm 这 些 框 
架 以 实时 的 方式 处 理 消息 ， 也 就 是 所 谓 的 流 式 处 理 。 我 们 可 以 将 流 式 处 理 与 离线 处 理 进行 
比较 ， 比 如 Hadoop 就 是 被 设计 用 于 在 稍 后 某 个 时 刻 处 理 大 量 的 数据 。 第 11 章 将 会 介绍 流 
式 处 理 。 


1.2.4 生产 者 和 消费 者 

Kafka 的 客户 端 就 是 Kafka 系统 的 用 户 ， 它 们 被 分 为 两 种 基本 类 型 : 生产 者 和 消费 者 。 除 
此 之 外 ， 还 有 其 他 高 级 客户 端 API 一 一 用 于 数据 集成 的 Kafka Connect API 和 用 于 流 式 处 理 
的 Kafka Streams。 这 些 高 级 客户 端 API 使 用 生产 者 和 消费 者 作为 内 部 组 件 ， 提 供 了 高 级 的 
功能 。 

生产 者 创建 消息 。 在 其 他 发 布 与 订阅 系统 中 ， 生 产 者 可 能 被 称 为 发 布 者 或 写 入 者 。 一 般 情 
况 下 ,一 个 消息 会 被 发 布 到 一 个 特定 的 主题 上 。 生 产 者 在 默认 情况 下 把 消息 均衡 地 分 布 到 
主题 的 所 有 分 区 上 ， 而 并 不 关心 特定 消息 会 被 写 到 哪个 分 区 。 不 过 ， 在 某 些 情况 下 ， 生 产 
者 会 把 消息 直接 写 到 指定 的 分 区 。 这 通常 是 通过 消息 键 和 分 区 器 来 实现 的 ,分 区 器 为 键 生 
成 一 个 散 列 值 ， 并 将 其 映射 到 指定 的 分 区 上 。 这 样 可 以 保证 包含 同一 个 键 的 消息 会 被 写 到 
同一 个 分 区 上 。 生 产 者 也 可 以 使 用 自 定 义 的 分 区 器 ， 根 据 不 同 的 业务 规则 将 消息 映射 到 分 
区 。 第 3 章 将 详细 介绍 生产 者 。 
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消费 者 读 取 消息 。 在 其 他 发 布 与 订阅 系统 中 ， 消 费 者 可 能 被 称 为 订阅 者 或 读者 。 消 费 者 订 
阅 一 个 或 多 个 主题 ， 并 按照 消息 生成 的 顺序 读 取 它 们 。 消 费 者 通过 检查 消息 的 偏 移 量 来 区 
分 已 经 读 取 过 的 消息 。 偏 移 量 是 男 一 种 元 数据 ， 它 是 一 个 不 断 递增 的 整数 值 ， 在 创建 消息 
时 ，Kafka 会 把 它 添 加 到 消息 里 。 在 给 定 的 分 区 里 ， 每 个 消息 的 偏 移 量 都 是 唯一 的 。 消 费 
者 把 每 个 分 区 最 后 读 取 的 消息 偏 移 量 保存 在 Zookeeper 或 Kafka 上 ， 如 果 消 费 者 关闭 或 重 
启 ， 它 的 读 取 状态 不 会 丢失 。 

消费 者 是 消费 者 群 组 的 一 部 分 ， 也 就 是 说 ， 会 有 一 个 或 多 个 消费 者 共同 读 取 一 个 主题 。 群 
组 保证 每 个 分 区 只 能 被 一 个 消费 者 使 用 。 图 1-6 所 示 的 群 组 中 ， 有 3 个 消费 者 同时 读 取 一 
个 主题 。 其 中 的 两 个 消费 者 各 自 读 取 一 个 分 区 ， 另 外 一 个 消费 者 读 取 其 他 两 个 分 区 。 消 费 
者 与 分 区 之 间 的 映射 通常 被 称 为 消费 者 对 分 区 的 所 有 权 关 系 。 


通过 这 种 方式 ， 消 费 者 可 以 消费 包含 大 量 消息 的 主题 。 而 且 ， 如 果 一 个 消费 者 失效 ， 群 组 
里 的 其 他 消费 者 可 以 接管 失效 消费 者 的 工作 。 第 4 章 将 详细 介绍 消费 者 和 消费 者 群 组 。 
































主题 “topicName” 消费 者 
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图 1-6: 消费 者 群 组 从 主题 读 取消 息 
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1.2.5 ”broker 和 集群 


一 个 独立 的 Kafka 服务 器 被 称 为 broker。broker 接收 来 自生 产 者 的 消息 ， 为 消息 设置 偏 移 
量 ， 并 提交 消息 到 磁盘 保存 。broker 为 消费 者 提供 服务 ， 对 读 取 分 区 的 请 求 作出 响应 ， 返 
回 已 经 提交 到 磁盘 上 的 消息 。 根 据 特定 的 硬件 及 其 性 能 特征 ， 单 个 broker 可 以 轻松 处 理 数 
千 个 分 区 以 及 每 秒 百 万 级 的 消息 量 。 

broker 是 集群 的 组 成 部 分 。 每 个 集群 都 有 一 个 broker 同时 充当 了 集群 控制 器 的 角色 (自动 
从 集群 的 活跃 成 员 中 选举 出 来 )。 控 制 器 负责 管理 工作 ， 包 括 将 分 区 分 配给 broker 和 监控 
broker。 在 集群 中 ， 一 个 分 区 从 属于 一 个 broker， 该 broker 被 称 为 分 区 的 首领 。 一 个 分 区 
可 以 分 配给 多 个 broker， 这 个 时 候 会 发 生 分 区 复制 〈 见 图 1-7)。 这 种 复制 机 制 为 分 区 提供 
了 消息 元 余 ， 如 果 有 一 个 broker 失效 ， 其 他 broker 可 以 接管 领导 权 。 不 过 ， 相 关 的 消费 者 
和 生产 者 都 要 重新 连接 到 新 的 首领 。 第 6 章 将 详细 介绍 集群 的 操作 ， 包 括 分 区 复制 。 
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主题 A 主题 A 
的 分 区 0 的 分 区 1 
消息 A/0 | 来 自 A/0 的 消息 


消息 A/1 Broker2 来 自 A/1 的 消息 


主题 A 主题 A 
的 分 区 0 的 分 区 1 
首领 




















































图 1-7: 集群 里 的 分 区 复制 


保留 消息 〈 在 一 定期 限 内 ) 是 Kafka 的 一 个 重要 特性 。Kafka broker 默认 的 消息 保留 策略 
是 这 样 的 : 要么 保留 一 段 时 间 (比如 7 天 )， 要 么 保留 到 消息 达到 一 定 大 小 的 字 节 数 〈 比 
如 1GB)。 当 消息 数量 达到 这 些 上 限时 ， 旧 消息 就 会 过 期 并 被 删除 ， 所 以 在 任何 时 刻 ， 可 
用 消息 的 总 量 都 不 会 超过 配置 参数 所 指定 的 大 小 。 主 题 可 以 配置 自己 的 保留 策略 ， 可 以 将 
消息 保留 到 不 再 使 用 它们 为 止 。 例 如 ， 用 于 跟踪 用 户 活动 的 数据 可 能 需要 保留 几 天 ， 而 应 
用 程序 的 度量 指标 可 能 只 需要 保留 几 个 小 时 。 可 以 通过 配置 把 主题 当 作 紧 凑 型 日 志 ， 只 
最 后 一 个 带 有 特定 键 的 消息 会 被 保留 下 来 。 这 种 情况 对 于 变更 日 志 类 型 的 数据 来 说 比较 适 
用 ， 因 为 人 们 只 关心 最 后 时 刻 发 生 的 那个 变更 。 


1.2.6 多 集群 

随 着 Kafka 部 署 数量 的 增加 ， 基 于 以 下 几 点 原因 ， 最 好 使 用 多 个 集群 。 

。 数据 类 型 分 离 

。 安全 需求 隔离 

。 多 数据 中 心 (灾难 恢 复 ) 

如 果 使 用 多 个 数据 中 心 ， 就 需要 在 它们 之 间 复 制 消息 。 这 样 ， 在 线 应 用 程序 才 可 以 访问 到 
多 个 站 点 的 用 户 活动 信息 。 例 如 ， 如 果 一 个 用 户 修 改 了 他 们 的 资料 信息 ， 不 管 从 哪个 数据 
中 心 都 应 该 能 看 到 这 些 改动 。 或 者 多 个 站 点 的 监控 数据 可 以 被 聚集 到 一 个 部 署 了 分 析 程 序 
和 告警 系统 的 中 心 位 置 。 不 过 ，Kafka 的 消息 复制 机 制 只 能 在 单个 集群 里 进行 ， 不 能 在 多 
个 集群 之 间 进 行 。 

Kafka 提供 了 一 个 叫 作 MirrorMaker 的 工具 ， 可 以 用 它 来 实现 集群 间 的 消息 复制 。 
MirrorMaker 的 核心 组 件 包含 了 一 个 生产 者 和 一 个 消费 者 ， 两 者 之 间 通 过 一 个 队列 相连 。 
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消费 者 从 一 个 集群 读 取消 息 ， 生 产 者 把 消息 发 送 到 另 一 个 集群 上 。 图 1-8 展示 了 一 个 使 
用 MirrorMaker 的 例子 ， 两 个 本 地 ”集群 的 消息 被 聚集 到 一 个 聚合 集群 上 ， 然 后 将 
该 集群 复制 到 其 他 数据 中 心 。 不 过 ， 这 种 方式 在 创建 复杂 的 数据 管道 方面 显得 有 点 力 不 从 





心 。 第 7 章 将 详细 讨论 这 些 案例 。 
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图 1-8: 多 数据 中 心 架构 


1.3 为 什么 选择 Kafka 


基于 发 布 与 订阅 的 消息 系统 那么 多 ， 为 什么 Kafka 会 是 一 个 更 好 的 选择 呢 ? 


1.3.1 多 个 生产 者 


en er 不 管 客户 端 在 使 月 





日 各 


个 主题 还 是 多 个 主题 。 所 以 它 很 





合用 来 从 多 个 前 端 系统 收集 数据 ， 并 以 统一 的 格式 对 外 提供 数据 。 例 如 ， 一 个 包含 了 多 
人 
该 主题 写 和 数据。 消费 者 应 用 程序 会 获得 统一 的 页 面 视图 ， 而 无 需 协 调 来 自 不 同 生 产 者 的 



































数据 流 。 
1.3.2 ”多 个 消费 者 


除了 支持 多 个 生产 者 外 ，Kafka 也 支持 多 个 消费 者 从 一 个 单独 的 消息 流 上 读 取 数 据 ， 而 且 
消费 者 之 间 互 不 影响 。 这 与 其 他 队列 系统 不 同 ， 其 他 队列 系统 的 消息 一 旦 被 一 个 客户 端 读 
取 ， 其 他 客户 端 就 无 法 再 读 取 它 。 另 外 ， 多 个 消费 者 可 以 组 成 一 个 群 组 ， 它 们 共享 一 个 消 
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息 流 ， 并 保证 整个 群 组 对 每 个 给 定 的 消息 只 处 理 一 次 。 


1.3.3 ”基于 磁盘 的 数据 存储 


Kafka 不 仅 支持 多 个 消费 者 ， 还 允许 消费 者 非 实时 地 读 取消 息 ， 这 要 归功 于 Kafka 的 数据 
保留 特性 。 消 息 被 提交 到 磁盘 ， 根 据 设置 的 保留 规则 进行 保存 。 每 个 主题 可 以 设置 单独 的 
保留 规则 ， 以 便 满足 不 同 消费 者 的 需求 ， 各 个 主题 可 以 保留 不 同 数量 的 消息 。 消 费 者 可 能 
会 因为 处 理 速 度 慢 或 突 发 的 流量 高 峰 导 致 无 法 及 时 读 取消 息 ， 而 持久 化 数据 可 以 保证 数据 
\ 会 丢失 。 消 费 者 可 以 在 进行 应 用 程序 维护 时 离线 一 小 段 时 间 ， 而 无 需 担 心 消息 丢失 或 堵 
塞 在 生产 者 端 。 消 费 者 可 以 被 关闭 ， 但 消息 会 继续 保留 在 Kafka 里 。 消 费 者 可 以 从 上 次 中 
断 的 地 方 继续 处 理 消息 。 


1.3.4 ”伸缩 性 


为 了 能 够 轻松 处 理 大 量 数据 ，Kafka 从 一 开始 就 被 设计 成 一 个 具有 灵活 伸缩 性 的 系统 。 用 
户 在 开发 阶段 可 以 先 使 用 单个 broker， 再 扩展 到 包含 3 个 broker 的 小 型 开发 集群 ， 然 后 随 
着 数据 量 不 断 增长 ， 部 署 到 生产 环境 的 集群 可 能 包含 上 百 个 broker。 对 在 线 集群 进行 扩展 
丝毫 不 影响 整体 系统 的 可 用 性 。 也 就 是 说 ， 一 个 包含 多 个 broker 的 集群 ， 即 使 个 别 broker 
失效 ， 仍 然 可 以 持续 地 为 客户 提供 服务 。 要 提高 集群 的 容错 能 力 ， 需 要 配置 较 高 的 复制 系 
数 。 第 6 章 将 讨论 关于 复制 的 更 多 细节 。 


1.3.5 ”高 性 能 

上 面 提 到 的 所 有 特性 ， 让 Kafka 成 为 了 一 个 高 性 能 的 发 布 与 订阅 消息 系统 。 通 过 横向 扩展 
生产 者 、 消 费 者 和 broker，Kafka 可 以 轻松 处 理 巨 大 的 消息 流 。 在 处 理 大 量 数据 的 同时 ， 
它 还 能 保证 亚 秒 级 的 消息 延迟 。 


1.4 数据 生态 系统 


已 经 有 很 多 应 用 程序 加 入 到 了 数据 处 理 的 大 军 中 。 我 们 定义 了 输入 和 应 用 程序 ， 负 责 生 成 
数据 或 者 把 数据 引入 系统 。 我 们 定义 了 输出 ， 它 们 可 以 是 度量 指标 、 报 告 或 者 其 他 类 型 的 
数据 。 我 们 创建 了 一 些 循 环 ， 使 用 一 些 组 件 从 系统 读 取 数 据 ， 对 读 取 的 数据 进行 处 理 ， 然 
后 把 它们 导 到 数据 基础 设施 上 ， 以 备 不 时 之 需 。 数 据 类 型 可 以 多 种 多 样 ， 每 一 种 数据 类 型 
可 以 有 不 同 的 内 容 、 大 小 和 用 途 。 

Kafka 为 数据 生态 系统 带 来 了 循环 系统 ， 如 图 1-9 所 示 。 它 在 基础 设施 的 各 个 组 件 之 间 传 
递 消息 ， 为 所 有 客户 端 提 供 一 致 的 接口 。 当 与 提供 消息 模式 的 系统 集成 时 ， 生 产 者 和 消费 
者 之 间 不 再 有 紧密 的 耦合 ， 也 不 需要 在 它们 之 间 建 立 任何 类 型 的 直 连 。 我 们 可 以 根据 业务 
需要 添加 或 移 除 组 件 ， 因 为 生产 者 不 再 关心 谁 在 使 用 数据 ， 也 不 关心 有 多 少 个 消费 者 。 































































































初 识 Kafka | 9 





应 用 程序 ee 
Apache of Samza, Spark, 
OpenTSDB Storm, Flink 











图 1-9: 大 数据 生态 系统 


使 用 场景 

1. 活动 跟踪 

Kafka 最 初 的 使 用 场景 是 跟踪 用 户 的 活动 。 网 站 用 户 与 前 端 应 用 程序 发 生 交互 ， 前 端 应 用 
程序 生成 用 户 活动 相关 的 消息 。 这 些 消息 可 以 是 一 些 静 态 的 信息 ， 比 如 页 面 访问 次 数 和 点 
击 量 ， 也 可 以 是 一 些 复杂 的 操作 ， 比 如 添加 用 户 资料 。 这 些 消息 被 发 布 到 一 个 或 多 个 主题 
上 ， 由 后 端 应 用 程序 负责 读 取 。 这 样 ， 我 们 就 可 以 生成 报告 ， 为 机 器 学 习 系 统 提供 数据 ， 
更 新 搜索 结果 ， 或 者 实现 其 他 更 多 的 功能 。 

2. 传递 消息 

Kafka 的 另 一 个 基本 用 途 是 传递 消息 。 应 用 程序 向 用 户 发 送 通知 〈 比 如 邮件 ) 就 是 通过 传 
递 消息 来 实现 的 。 这 些 应 用 程序 组 件 可 以 生成 消息 ， 而 不 需要 关心 消息 的 格式 ， 也 不 需要 
关心 消息 是 如 何 被 发 送 的 。 一 个 公共 应 用 程序 会 读 取 这 些 消 息 ， 对 它们 进行 处 理 : 
。 格式 化 消息 (也 就 是 所 谓 的 装饰 ) ; 

。 将 多 个 消息 放 在 同一 个 通知 里 发 送 ， 

。 根据 用 户 配置 的 首选 项 来 发 送 数据 。 

使 用 公共 组 件 的 好 处 在 于 ， 不 需要 在 多 个 应 用 程序 上 开发 重复 的 功能 ， 而 且 可 以 在 公共 组 
件 上 做 一 些 有 趣 的 转换 ， 比 如 把 多 个 消息 聚合 成 一 个 单独 的 通知 ， 而 这 些 工作 是 无 法 在 其 
他 地 方 完 成 的 。 


3. 度量 指标 和 日 志 记录 


Kafka 也 可 以 用 于 收集 应 用 程序 和 系统 度量 指标 以 及 日 志 。Kafka 支持 多 个 生产 者 的 特性 在 
这 个 时 候 就 可 以 派 上 用 场 。 应 用 程序 定期 把 度量 指标 发 布 到 Kafka 主题 上 ， 监 控 系 统 或 告 
获 系 统 读 取 这 些 消 息 。Kafka 也 可 以 用 在 像 Hadoop 这 样 的 离线 系统 上 ， 进 行 较 长 时 间 片 段 
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的 数据 分 析 ， 比 如 年 度 增长 走势 预测 。 日 志 消 息 也 可 以 被 发 布 到 Kafka 主题 上 ， 然 后 被 路 
由 到 专门 的 日 志 搜 索 系 统 (比如 Elasticsearch) 或 安全 分 析 应 用 程序 。 更 改 目 标 系统 ( 比 
如 日 志 存 储 系统 ) 不 会 影响 到 前 端 应 用 或 聚合 方法 ， 这 是 Kafka 的 另 一 个 优点 。 

4. 提交 日 志 

Kafka 的 基本 概念 来 源 于 提交 日 志 ， 所 以 使 用 Kafka 作为 提交 日 志 是 件 顺 理 成 章 的 事 。 我 
们 可 以 把 数据 库 的 更 新 发 布 到 Kafka 上 ， 应 用 程序 通过 监控 事件 流 来 接收 数据 库 的 实时 更 
新 。 这 种 变更 日 志 流 也 可 以 用 于 把 数据 库 的 更 新 复制 到 远程 系统 上 ， 或 者 合并 多 个 应 用 程 
序 的 更 新 到 一 个 单独 的 数据 库 视图 上 。 数 据 持久 化 为 变更 日 志 提 供 了 缓冲 区 ， 也 就 是 说 ， 
如 果 消 费 者 应 用 程序 发 生 故 障 ， 可 以 通过 重 放 这 些 日 志 来 恢复 系统 状态 。 另 外 ， 紧 凑 型 日 
志 主 题 只 为 每 个 键 保留 一 个 变更 数据 ， 所 以 可 以 长 时 间 使 用 ， 不 需要 担心 消息 过 期 间 题 。 
5. 流 处 理 


流 处 理 是 又 一 个 能 提供 多 种 类 型 应 用 程序 的 领域 。 可 以 说 ， 它 们 提供 的 功能 与 Hadoop 里 
的 map 和 reduce 有 点 类 似 ， 只 不 过 它们 操作 的 是 实时 数据 流 ， 而 Hadoop 则 处 理 更 长 时 间 
片段 的 数据 ， 可 能 是 儿 个 小 时 或 者 几 天 ，Hadoop 会 对 这 些 数据 进行 批 处 理 。 通 过 使 用 流 
式 处 理 框架 ， 用户 可 以 编写 小 型 应 用 程序 来 操作 Kafka 消息 ， 比 如 计算 度量 指标 ， 为 其 他 
应 用 程序 有 效 地 处 理 消 息 分 区 ， 或 者 对 来 自 多 个 数据 源 的 消息 进行 转换 。 第 11 章 将 通过 
其 他 案例 介绍 流 处 理 。 


1.5 起 源 故 事 


Kafka 是 为 了 解决 Linkedm 数据 管道 问题 应 运 而 生 的 。 它 的 设计 目的 是 提供 一 个 高 性 能 和 
消息 系统 ， 可 以 处 理 多 种 数据 类 型 ， 并 能 够 实时 提供 纯净 且 结 构 化 的 用 户 活动 数据 和 系统 
度量 指标 。 

数据 为 我 们 所 做 的 每 一 件 事 提供 了 动力 。 





































































































——Jeff Weiner, LinkedIn CEO 


1.5.1 Linkedln 的 问题 


本 章 开 头 提 到 过 ，LinkedIn 有 一 个 数据 收集 系统 和 应 用 程序 指标 ， 它 使 用 自 定义 的 收集 器 
和 一 些 开源 工具 来 保存 和 展示 内 部 数据 。 除 了 跟踪 CPU 使 用 率 和 应 用 性 能 这 些 一 般 性 指 
标 外 ，LinkedIn 还 有 一 个 比较 复杂 的 用 户 请 求 跟踪 功能 。 它 使 用 了 监控 系统 ， 可 以 跟踪 音 
个 用 户 的 请 求 是 如 何在 内 部 应 用 间 传播 的 。 不 过 监控 系统 存在 很 多 不 足 。 它 使 用 的 是 轮 询 
拉 取 度 量 指标 的 方式 ， 指 标 之 间 的 时 间 间 隔 较 长 ， 而 且 没有 自助 服务 能 力 。 它 使 用 起 来 不 
太 方便 ， 很 多 简单 的 任务 需要 人 工 介入 才能 完成 ， 而 且 一 致 性 较 差 ， 同 一 个 度量 指标 的 名 
字 在 不 同系 统 里 的 叫 法 不 一 样 。 

与 此 同时 ， 我 们 还 创建 了 另 一 个 用 于 收集 用 户 活动 信息 的 系统 。 这 是 一 个 HTTP 服务 ， 前 
端的 服务 器 会 定期 连接 进来 ， 在 上 面 发 布 一 些 消息 (XML 格式)。 这 些 消息 文件 被 转移 到 
线 下 进行 解析 和 校对 。 同 样 ， 这 个 系统 也 存在 很 多 不 足 。XML 文件 的 格式 无 法 保持 一 致 ， 
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而 且 解 析 XML 文件 非常 耗费 计算 资源 。 要 想 更 改 所 创建 的 活动 类 型 ， 需 要 在 前 端 应 用 和 
离线 处 理 程序 之 间 做 大 量 的 协调 工作 。 即 使 是 这 样 ， 在 更 改 数据 结构 时 ， 仍 然 经 常 出 现 系 
统 月 涡 现 象 。 而 且 批 处 理 时 间 以 小 时 计算 ， 无 法 用 它 完成 实时 的 任务 。 


监控 和 用 户 活动 跟踪 无 法 使 用 同一 个 后 端 服务 。 监 控 服 务 太 过 笨重 ， 数 据 格 式 不 适用 于 活 
动 跟踪 ， 而 且 无 法 在 活动 跟踪 中 使 用 轮 询 拉 取 模型 。 另 一 方面 ， 把 跟踪 服务 用 在 度量 指标 
上 也 过 于 脆弱 ， 批 处 理 模型 不 适用 于 实时 的 监控 和 告警 。 不 过 ， 好 在 数据 间 存 在 很 多 共 
性 ， 信 息 〈 比 如 特定 类 型 的 用 户 活 动 对 应 用 程序 性 能 的 影响 ) 之 间 的 关联 度 还 是 很 高 的 。 
特定 类 型 用 户 活 动 数量 的 下 降 说 明 相关 应 用 程序 存在 问题 ， 不 过 批 处 理 的 长 时 间 延 迟 意 味 
着 无 法 对 这 类 问题 作出 及 时 的 反馈 。 


最 开始 ， 我 们 调研 了 一 些 现 成 的 开源 解决 方案 ， 希 望 能 够 找到 一 个 系统 ， 可 以 实时 访问 
数据 ， 并 通过 横向 扩展 来 处 理 大 量 的 消息 。 我 们 使 用 ActiveMQ 创建 了 一 个 原型 系统 ， 但 
它 当 时 还 无 法 满足 横向 扩展 的 需求 。LinkedIn 不 得 不 使 用 这 种 脆弱 的 解决 方案 ， 虽然 
ActiveMQ 有 很 多 缺陷 会 导致 broker 暂停 服务 。 客 户 端的 连接 因此 被 阻塞 ， 处 理 用 户 请 求 
的 能 力也 受到 影响 。 于 是 我 们 最 后 决定 构建 自己 的 基础 设施 。 


1.5.2 ”Kafka 的 诞生 


LinkedIn 的 开发 团队 由 Jay Kreps 领导 。Jay Kreps 是 LinkedIn 的 首席 工程 师 ， 之 前 负责 

布 式 键 值 存储 系统 Voldemort 的 开发 。 初 建 团 队 成 员 还 包括 Neha Narkhede， 不 久之 后 ， 
Jun Rao 也 加 入 了 进来 。 他 们 一 起 着 手 创建 一 个 消息 系统 ， 可 以 同时 满足 上 述 的 两 种 需求 ， 
并 且 可 以 在 未 来 进行 横向 扩展 。 他 们 的 主要 目标 如 下 : 


。 使 用 推送 和 拉 取 模型 解 而 生产 者 和 消费 者 ， 

。 为 消息 传递 系统 中 的 消息 提供 数据 持久 化 ， 以 便 支持 多 个 消费 者 ， 
。 通过 系统 优化 实现 高 吞吐 量 ; 
。 系统 可 以 随 着 数据 流 的 增长 进行 横向 扩展 。 


最 后 我 们 看 到 的 这 个 发 布 与 订阅 消息 系统 具有 典型 的 消息 系统 接口 ， 但 从 存储 层 来 看 ， 它 
更 像 是 一 个 日 志 聚 合 系 统 。Kafka 使 用 Avro 作为 消息 序列 化 框架 ， 每 天 高 效 地 处 理 数 十 亿 
级 别 的 度量 指标 和 用 户 活动 跟踪 信息 。LinkedIn 已 经 拥有 超过 万 亿 级 别 的 消息 使 用 量 ( 截 
止 到 2015 年 8 月)， 而 且 每 天 仍然 需 要 处 理 超过 千 万 亿 字 节 的 数据 。 


1.5.3 ”走向 开源 


2010 年 底 ，Kafka 作为 开源 项 目 在 GitHub 上 发 布 。2011 年 7 月， 因为 倍 受 开源 社区 的 关 
注 ， 它 成 为 Apache 软件 基金 会 的 旷 化 器 项 目 。2012 年 10 月 ，Kafka 从 孵化 器 项 目 毕业 。 
从 那 时 起 ， 来 自 LinkedIn 内 部 的 开发 团队 一 直 为 Kafka 提供 大 力 支 持 ， 而 且 吸 引 了 大 批 
来 自 LinkedI 外 部 的 贡献 者 和 参与 者 。 现 在 ，Kafka 被 很 多 组 织 用 在 一 些 大 型 的 数据 管道 
上 。2014 年 秋天 ，Jay Kreps、Neha Narkhede 和 Jun Rao 离开 LinkedIn， 创 办 了 Confluent。 
Confluent 是 一 个 致力 于 为 企业 开发 提供 支持 、 为 Kafka 提供 培训 的 公司 。 这 两 家 公司 连同 
来 自 开源 社区 持续 增长 的 贡献 力量 ,一 直 在 开发 和 维护 Kafka， 让 Kafka 成 为 大 数据 管道 
的 不 二 之 选 。 















































































































































1.5.4 命名 

关于 Kafka 的 历史 ， 人 们 经 常会 问 到 的 一 个 问题 就 是 ，Kafka 这 个 名 字 是 怎么 想 出 来 的 ， 

以 及 这 个 名 字 和 这 个 项 目 之 间 有 着 怎样 的 联系 。 对 于 这 个 问题 ，Jay Kreps 解释 如 下 : 
我 想 既 然 Kafka 是 为 了 写 数据 而 产生 的 ， 那 么 用 作家 的 名 字 来 命名 会 显得 更 有 意 
义 。 我 在 大 学 时 期 上 过 很 多 文学 课程 ， 很 喜欢 Franz Kafka。 况 且 ， 对 于 开源 项 目 
来 说 ， 这 个 名 字 听 起 来 很 酷 。 因 此 ， 名 字 和 应 用 本 身 基 本 没有 太 多 联系 。 


1.6 ”开始 Kafka 之 旅 


现在 我 们 对 Kafka 已 经 有 了 一 个 大 体 的 了 解 ， 还 知道 了 一 些 常 见 的 术语 ， 接 下 来 可 以 开始 
使 用 Kafka 来 创建 数据 管道 了 。 在 下 一 章 ， 我 们 将 探究 如 何 安装 和 配置 Kafka， 还 会 讨论 
如 何 选 择 合适 的 硬件 来 运行 Kafka， 以 及 把 Kafka 应 用 到 生产 环境 需要 注意 的 事项 。 
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第 2 章 


安装 Kafka 





这 一 章 将 介绍 如 何 安 装 和 运行 Kafka， 包 括 如 何 设 置 Zookeeper (Kafka 使 用 Zookeeper 保 
存 Broker 的 元 数据 )， 还 会 介绍 Kafka 的 基本 配置 ， 以 及 如 何 为 Kafka 选择 合适 的 硬件 ， 
最 后 介绍 如 何在 一 个 集群 中 安装 多 个 Kafka broker， 以 及 把 Kafka 应 用 到 生产 环境 需要 注 
意 的 事项 。 


2.1 要 事先 行 


在 使 用 Kafka 之 前 需要 先 做 一 些 事情 ， 接 下 来 介绍 怎样 做 。 


2.1.1 选择 操作 系统 


Kafka 是 使 用 Java 开发 的 应 用 程序 ， 所 以 它 可 以 运行 在 Windows、MacOS 和 Linux 等 多 
种 操作 系统 上 。 本 章 将 着 重 介 绍 如 何在 Linux 上 安装 和 使 用 Kafka， 因 为 把 Kafka 安装 在 
Linux 系统 上 是 最 为 常见 的 。 即 使 只 是 把 Kafka 作为 一 般 性 用 途 ， 仍然 推 荐 使 用 Linux 系 
统 。 关 于 如 何在 Windows 和 MacOS 上 安装 Kafka， 请 参考 附录 A。 














2.1.2 安装 Java 


在 安装 Zookeeper 和 Kafka 之 前 ， 需 要 先 安 装 Java 环境 。 这 里 推荐 安装 Java 8， 可 以 使 用 
系统 自 带 的 安装 包 ， 也 可 以 直接 从 java.com 网 站 下 载 。 虽 然 运行 Zookeeper 和 Kafka 只 需 
要 Java 运行 时 版 本 ， 但 也 可 以 安装 完整 的 JDK， 以 备 不 时 之 需 。 假 设 JDK 8 update 51 已 
经 安装 在 /usr/java/jdk1.8.0_51 目录 下 ， 其 他 软件 的 安装 都 是 基于 这 个 前 提 进 行 的 。 























2.1.3 安装 Zookeeper 


Kafka 使 用 Zookeeper 保存 集群 的 元 数据 信息 和 消费 者 信息 。Kafka 发 行 版 自 带 了 
Zookeeper， 可 以 直接 从 脚本 局 动 ， 不 过 安装 一 个 完整 版 的 Zookeeper 也 并 不 费劲 。 


















broker 和 主题 
元 数据 


消费 者 元 数据 
分 区 偏 移 量 








Zookeeper 











图 2-1: Kafka 和 Zookeeper 


Zookeeper 的 3.4.6 稳定 版 已 经 在 Kafka 上 做 过 全 面 测 试 ， 可 以 从 apache.org 下 载 该 版 本 的 
Zookeeper: http://bit.ly/2sDWSg]J。 


1. 单机 服务 


下 面 的 例子 演示 了 如 何 使 用 基本 的 配置 安装 Zookeeper， 安 装 目录 为 /usr/local/zookeeper， 
数据 目录 为 /var/lib/zookeeper。 


tar -zxf zookeeper-3.4.6.tar.gz 

mv zookeeper-3.4.6 /usr/LocaL/zookeeper 

mkdir -p /var/\lib/zookeeper 

cat > /usr/LocaL/zookeeper/conf/zoo.cfg << EOF 
tickTime=2000 

dataDir=/var/lib/zookeeper 

clientPort=2181 

EOF 

export JAVA_HOME=/usr/java/jdk1.8.0_51 

# /usr/local/zookeeper/bin/zkServer.sh start 

JMX enabled by default 

Using config: /usr/LocaL/zookeeper/bin/../conf/zoo.cfg 
Starting zookeeper ... STARTED 

# 


现在 可 以 连 到 Zookeeper 端口 上 ， 通 过 发 送 四 字 命 令 srvr 来 验证 Zookeeper 是 否 安 装 正确 。 


# telnet localhost 2181 

下 人 用 Mel 

Connected to localhost. 

Escape character is '^]'. 

srvr 

Zookeeper version: 3.4.6-1569965, built on 02/20/2014 09:09 GMT 
Latency min/avg/max: 0/0/0 

Received: 1 

Sent: 0 


并 VV VV 半 亲 亲 亲 





Connections: 1 

Outstanding: 0 

Zxid: 0x0 

Mode: standalone 

Node count: 4 

Connection closed by foreign host. 
# 


2. Zookeeper 群 组 (Ensemble) 





Zookeeper 集群 被 称 为 群 组 。Zookeeper 使 用 的 是 一 致 性 协议 ， 所 以 建议 每 个 群 组 里 应 该 包 
含 奇数 个 节点 (比如 3 个 、5 个 等 )， 因 为 只 有 当 群 组 里 的 大 多 数 节 点 〈 也 就 是 法 定 人 数 ) 
处 于 可 用 状态 ，Zookeeper 才能 处 理 外 部 的 请 求 。 也 就 是 说 ， 如 果 你 有 一 个 包含 3 个 节点 
的 群 组 ， 那 么 它 人 允许 一 个 节点 失效 。 如 有 果 群 组 包含 5 个 节点 ， 那 么 它 人 允许 2 个 节点 失效 。 


群 组 节点 个 数 的 选择 


假设 有 一 个 包含 5 个 节点 的 群 组 ， 如 果 要 对 群 组 做 一 些 包 括 更 换 节 点 在 内 的 
配置 更 改 ， 需 要 依次 重启 每 一 个 节点 。 如 果 你 的 群 组 无 法 容忍 多 个 节点 失 
效 ， 那 么 在 进行 群 组 维护 时 就 会 存在 风险 。 不 过 ， 也 不 建议 一 个 群 组 包含 超 
过 7 个 节点 ， 因 为 Zookeeper 使 用 了 一 致 性 协议 ， 节 点 过 多 会 降低 整个 群 组 
的 性 能 。 

















二 








群 组 需要 有 一 些 公共 配置 ， 上 面 列 出 了 所 有 服务 器 的 清单 ， 并 且 每 个 服务 器 还 要 在 数据 
目录 中 创建 一 个 myid 文件 ， 用 于 指明 自己 的 ID。 如 果 群 组 里 服务 器 的 机 器 名 是 zool. 
example.com、Zzoo2.example.com、Zzoo3.example.com， 那 么 配置 文件 可 能 是 这 样 的 : 


tickTime=2000 
dataDir=/var/lib/zookeeper 
clientPort=2181 

initLimit=20 

syncLimit=5 

server .1=zo01.example.com:2888:3888 
server .2=z002.example.com:2888:3888 
server .3=z003.example.com:2888:3888 

















在 这 个 配置 中 ，initLimit 表示 用 于 在 从 节点 与 主 节点 之 间 建 立 初始 化 连接 的 时 间 上 限 ， 
syncLimit 表示 人 允许 从 节点 与 主 节点 处 于 不 同步 状态 的 时 间 上 限 。 这 两 个 值 都 是 tickTime 的 
倍数 ， 所 以 initLimit 是 20*2000ms， 也 就 是 40s。 配 置 里 还 列 出 了 和 群 组 中 所 有 服务 器 的 地 
址 。 服 务 器 地 址 遵循 server .X=hostname:peerPort:leaderPort 格式 ， 各 个 参数 说 明 如 下 : 
X 

服务 器 的 DD， 它 必须 是 一 个 整数 ， 不 过 不 一 定 要 从 0 开始 ， 也 不 要 求 是 连续 的 ; 
hostname 


服务 器 的 机 器 名 或 卫 地 址 ; 


peerPort 
用 于 市 点 间 通 信和 的 TCP 端口 ; 








16 | 第 2 章 


leaderPort 


用 于 首领 选举 的 TCP 端口 。 


客户 端 只 需要 通过 clientPort 就 能 连接 到 群 组 ， 而 群 组 节点 间 的 通信 和 则 需要 同时 用 到 这 
端口 (peerPort、leaderPort、clientPort)。 


除了 公共 的 配置 文件 外 ， 每 个 服务 器 都 必须 在 data Dir 目录 中 创建 一 个 叫 作 myid 的 文件 ， 
文件 里 要 包含 服务 器 ID， 这 个 ID 要 与 配置 文件 里 配置 的 ID 保持 一 致 。 完 成 这 些 步骤 后 ， 
就 可 以 启动 服务 器 ， 让 它们 彼此 间 进 行 通 信 了 。 


2.2 ”安装 Kafka Broker 


配置 好 Java 和 Zookeeper 之 后 ， 接 下 来 就 可 以 安装 Kafka 了 。 可 以 从 http://kafka.apache. 
org/downloads.html 下 载 最 妆 版 本 的 Kafka。 截 至 本 书写 作 时 ，Kafka 的 版 本 是 0.9.0.1， 对 
应 的 Scala 版 本 是 2.11.0。 


下 面 的 例子 将 Kafka 安装 在 /usr/local/kafka 目录 下 ， 使 用 之 前 配置 好 的 Zookeeper， 并 把 消 
息 日 志保 存在 /tmp/kafka-logs 目录 下 。 


# tar -Zxf kafka 2.11-0.9.0.1.tgz 

# mv kafka_2.11-0.9.0.1 /usr/LocaL/kafka 

# mkdir /tmp/kafka-logs 

# export JAVA_HOME=/usr/java/jdk1.8.0_51 

# /usr/local/kafka/bin/kafka-server-start.sh -daemon 
/usr/local/kafka/config/server .properties 


























一 旦 Kafka 创建 完毕 ， 就 可 以 对 这 个 集群 做 一 些 简 单 的 操作 来 验证 它 是 否 安装 正确 ， 比 如 
创建 一 个 测试 主题 ， 发 布 一 些 消 息 ， 然 后 读 取 它们 。 


创建 并 验证 主题 : 


# /usr/local/kafka/bin/kafka-topics.sh --create --zookeeper localhost:2181 
--replication-factor 1 --partitions 1 --topic test 
Created topic "test". 
# /usr/local/kafka/bin/kafka-topics.sh --zookeeper localhost:2181 
--describe --topic test 
Topic:test PartitionCount:1 ReplicationFactor:1 Configs: 

Topic: test Partition: 0 Leader: 0 Replicas: 0 Isr: 0 











# 


往 测试 主题 上 发 布 消息 : 


# /usr/local/kafka/bin/kafka-console-producer.sh --broker-list 
localhost:9092 --topic test 

Test Message 1 

Test Message 2 

^D 

# 


从 测试 主题 上 读 取 消息 : 





# /usr/LocaL/kafka/bin/kafka-consoLe-consumer .sh --zookeeper 
LocaLhost:2181 --topic test --from-beginning 

Test Message 1 

Test Message 2 

ACE 

Consumed 2 messages 

# 


2.3 broker 配 置 


Kafka 发 行 包 里 自 带 的 配置 样本 可 以 用 来 安装 单机 服务 ， 但 并 不 能 满足 大 多 数 安装 场景 的 
要 求 。Kafka 有 很 多 配置 选项 ， 涉 及 安装 和 调 优 的 方方面面 。 不 过 大 多 数 调 优 选项 可 以 使 
用 默认 配置 ， 除 非 你 对 调 优 有 特别 的 要 求 。 


2.3.1 ”常规 配置 


有 一 些 配置 选项 ， 在 单机 安装 时 可 以 直接 使 用 默认 值 ， 但 在 部 署 到 其 他 环境 时 要 格外 小 
心 。 这 些 参数 是 单个 服务 器 最 基本 的 配置 ， 它 们 中 的 大 部 分 需要 经 过 修改 后 才能 用 在 集 
群 里 。 

1. broker.id 


每 个 broker 都 需要 有 一 个 标识 符 ， 使 用 broker.id 来 表示 。 它 的 默认 值 是 0， 也 可 以 被 设置 

成 其 他 任意 整数 。 这 个 值 在 整个 Kafka 集群 里 必须 是 唯一 的 。 这 个 值 可 以 任意 选 定 ， 如 

出 于 维护 的 需要 ， 可 以 在 服务 器 节点 间 交 换 使 用 这 些 ID。 建 议 把 它们 设置 成 与 机 器 名 具有 

相关 性 的 整数 ， 这 样 在 进行 维护 时 ， 将 ID 号 映射 到 机 器 名 就 没 那 么 及 烦 了 。 例 如， 如 果 

机 器 名 包含 唯一 性 的 数字 (比如 hostl.example.com、host2.example.com) ， 那 么 用 这 些 数字 

来 设置 broker.id 就 再 好 不 过 了 。 

2. port 

如 果 使 用 配置 样本 来 启动 Kafka， 它 会 监听 9092 端口 。 修 改 port 配置 参数 可 以 把 它 设置 

成 其 他 任意 可 用 的 端口 。 要 注意 ， 如 果 使 用 1024 以 下 的 端口 ， 需 要 使 用 root 权限 启动 

Kafka， 不 过 不 建议 这 么 做 。 

3. zookeeper.connect 

用 于 保存 broker 元 数据 的 Zookeeper 地 址 是 通过 zookeeper.connect 来 指定 的 。 

localhost:2181 表示 这 个 Zookeeper 是 运行 在 本 地 的 2181 端口 上 。 该 配置 参数 是 用 冒号 分 

隔 的 一 组 hostname:port/path 列表 ， 每 一 部 分 的 含义 如 下 : 

。 hostname 是 Zookeeper 服务 器 的 机 器 名 或 卫 地 址 ; 

。 port 是 Zookeeper 的 客户 端 连接 端口 ; 

。 /path 是 可 选 的 Zookeeper 路 径 ， 作 为 Kafka 集群 的 chroot 环境 。 如 果 不 指定 ， 默 认 使 用 
根 路 径 。 

如 果 指 定 的 chroot 路 径 不 存在 ，broker 会 在 启动 的 时 候 创 建 它 。 
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为 什么 使 用 chroot 路 径 


在 Kafka 集群 里 使 用 chroot 路 径 是 一 种 最 佳 实践 。Zookeeper 群 组 可 以 共享 
给 其 他 应 用 程序 ， 即 使 还 有 其 他 Kafka 集群 存在 ， 也 不 会 产生 冲突 。 最 好 是 
在 配置 文件 里 指定 一 组 Zookeeper 服务 器 ， 用 分 号 把 它们 隔 开 。 一 旦 有 一 个 
Zookeeper 服务 器 宕 机 ，broker 可 以 连接 到 Zookeeper 和 群 组 的 另 一 个 节点 上 。 


























4. log.dirs 


Kafka 把 所 有 消息 都 保存 在 磁盘 上 ， 存 放 这 些 日 志 片 段 的 目录 是 通过 log.dirs 指定 的 。 它 是 
一 组 用 喜 号 分 隔 的 本 地 文件 系统 路 径 。 如 果 指 定 了 多 个 路 径 ， 那 么 broker 会 根据 “最 少 使 
用 ”原则 ， 把 同一 个 分 区 的 日 志 片 段 保 存 到 同一 个 路 径 下 。 要 注意 ，broker 会 往 拥有 最 少 
数目 分 区 的 路 径 新 增 分 区 ， 而 不 是 往 拥 有 最 小 磁盘 空间 的 路 径 新 增 分 区 。 

5. num.recovery.threads.per.data.dir 

对 于 如 下 3 种 情况 ，Kafka 会 使 用 可 配置 的 线程 池 来 处 理 日 志 片 段 ， 

。 服务 器 正常 启动 ， 用 于 打开 每 个 分 区 的 日 志 片 段 ; 

。 服务 器 崩溃 后 重启 ， 用 于 检查 和 截 短 每 个 分 区 的 日 志 片 段 ; 

。 服务 器 正常 关闭 ， 用 于 关闭 日 志 片 段 。 

默认 情况 下 ， 每 个 日 志 目录 只 使 用 一 个 线程 。 因 为 这 些 线程 只 是 在 服务 器 局 动 和 关闭 时 会 
用 到 ， 所 以 完全 可 以 设置 大 量 的 线程 来 达到 并 行 操作 的 目的 。 特 别 是 对 于 包含 大 量 分 区 的 
服务 器 来 说 ,一 旦 发 生 崩 涡 ， 在 进行 恢复 时 使 用 并 行 操作 可 能 会 省 下 数 小 时 的 时 间 。 设 置 
此 参数 时 需要 注意 ， 所 配置 的 数字 对 应 的 是 log.dirs 指定 的 单个 日 志 目 录 。 也 就 是 说 ， 如 
果 num.recovery.threads.per.data.dir 被 设 为 8， 并 且 log.dir 指定 了 3 个 路 径 ， 那 么 总 
共 需 要 24 个 线程 。 
6. auto.create.topics.enable 

默认 情况 下 ，Kafka 会 在 如 下 儿 种 情形 下 自动 创建 主题 : 

。 当 一 个 生产 者 开始 往 主 题写 入 消息 时 ， 

。 当 一 个 消费 者 开始 从 主题 读 取消 息 时 ， 

。 当 任 意 一 个 客户 端 向 主题 发 送 元 数据 请 求 时 。 

很 多 时 候 ， 这 些 行为 都 是 非 预 期 的 。 而 且 ， 根 据 Kafka 协议 ， 如 果 一 个 主题 不 先 被 创建 ， 
根本 无 法 知道 它 是 否 已 经 存在 。 如 果 显 式 地 创建 主题 ， 不 管 是 手动 创建 还 是 通过 其 他 配置 
系统 来 创建 ， 都 可 以 把 auto.create.topics.enable 设 为 false。 


2.3.2 ”主题 的 默认 配置 


Kafka 为 新 创建 的 主题 提供 了 很 多 默认 配置 参数 。 可 以 通过 管理 工具 〈 将 在 第 9 章 介绍 ) 
为 每 个 主题 单独 配置 一 部 分 参数 ， 比 如 分 区 个 数 和 数据 保留 策略 。 服 务 器 提供 的 默认 配置 
可 以 作为 基准 ， 它 们 适用 于 大 部 分 主题 。 
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使 用 主题 配置 覆盖 (override) 
之 前 的 Kafka 版 本 允许 主题 覆盖 服务 器 的 默认 配置 ， 包括 log.retention. 


hours.per.topic、 log.retention.bytes.per.topic 和 Log.seg ment.bytes. 
per.topic 这 几 个 参数 。 新 版 本 不 再 支持 这 些 参 数 ， 而 且 如 果 要 对 参数 进行 
覆盖 ， 需 要 使 用 管理 工具 。 


1. num.partitions 


num.partitions 参数 指定 了 新 创建 的 主题 将 包含 多 少 个 分 区 。 如 果 启 用 了 主题 自动 创建 功 
能 (该 功能 默认 是 启用 的 )， 主 题 分 区 的 个 数 就 是 该 参数 指定 的 值 。 该 参数 的 默认 值 是 1。 
要 注意 ， 我 们 可 以 增加 主题 分 区 的 个 数 ， 但 不 能 减少 分 区 的 个 数 。 所 以 ， 如 果 要 让 一 个 主 
题 的 分 区 个 数 少 于 num.partitions 指定 的 值 ， 需 要 手动 创建 该 主题 (将 在 第 9 章 讨论 )。 


第 1 章 里 已 经 提 到 ，Kafka 集群 通过 分 区 对 主题 进行 横向 扩展 ， 所 以 当 有 新 的 broker 加 入 
集群 时 ， 可 以 通过 分 区 个 数 来 实现 集群 的 负载 均衡 。 当 然 ， 这 并 不 是 说 ， 在 存在 多 个 主题 
的 情况 下 (它们 分 布 在 多 个 broker 上 ) ， 为 了 能 让 分 区 分 布 到 所 有 broker 上 ， 主 题 分 区 的 
个 数 必须 要 大 于 broker 的 个 数 。 不 过 ， 拥 有 大 量 消 息 的 主题 如 果 要 进行 负载 分 散 ， 就 需要 
大 量 的 分 区 。 








如 何 选 定 分 区 数量 


为 主题 选 定 分 区 数量 并 不 是 一 件 可 有 可 无 的 事情 ， 在 进行 数量 选择 时 ， 需 要 
考虑 如 下 儿 个 因素 。 


主题 需要 达到 多 大 的 吞吐 量 ? 例如， 是 希望 每 秒 钟 写 入 100KB 还 是 1GB ? 
单个 分 区 读 取 数 据 的 最 大 吞吐 量 是 多 少 ? 每 个 分 区 一 般 都 会 有 一 个 消费 
， 如 果 你 知道 消费 者 将 数据 写 入 数据 库 的 速度 不 会 超过 每 秒 50MB， 那 
你 也 该 知道 ， 从 一 个 分 区 读 取 数 据 的 吞吐 量 不 需要 超过 每 秒 50MB。 

以 通过 类 似 的 方法 估算 生产 者 向 单个 分 区 写 入 数据 的 吞吐 量 ， 不 过 生产 
的 速度 一 般 比 消费 者 快 得 多 ， 所 以 最 好 为 生产 者 多 估算 一 些 厨 吐 量 。 

个 broker 包含 的 分 区 个 数 、 可 用 的 磁盘 空间 和 网 络 带宽 。 

果 消 息 是 按照 不 同 的 键 来 写 入 分 区 的 ， 那 么 为 已 有 的 主题 新 增 分 区 就 会 
困难 。 
。 单 个 broker 对 分 区 个 数 是 有 限制 的 ， 因 为 分 区 越 多 ， 占 用 的 内 存 越 多 ， 完 
成 首领 选举 需要 的 时 间 也 越 长 。 































































































姑 代 南环 习性 鲸 去 
































很 显然 ， 综 合 萎 虑 以 上 几 个 因素 ， 你 需要 很 多 分 区 ， 但 不 能 太 多 。 如 有 果 你 估算 出 主题 的 吞 
吐 量 和 消 费 者 吞吐 量 ， 可 以 用 主题 吞吐 量 除 以 消费 者 吞吐 量 算出 分 区 的 个 数 。 也 就 是 说 ， 
如 果 每 秒 钟 要 从 主题 上 写 入 和 读 取 1GB 的 数据 ， 并 且 每 个 消费 者 每 秒 钟 可 以 处 理 50MB 
的 数据 ， 那 么 至 少 需要 20 个 分 区 。 这 样 就 可 以 让 20 个 消费 者 同时 读 取 这 些 分 区 ， 从 而 达 
到 每 秒 钟 1GB 的 吞吐 量 。 






































如 果 不 知道 这 些 信息 ， 那 么 根据 经 验 ， 把 分 区 的 大 小 限制 在 25GB 以 内 可 以 得 到 比较 理想 
的 效果 。 


2. log.retention.ms 


Kafka 通常 根据 时 间 来 决定 数据 可 以 被 保留 多 久 。 默 认 使 用 log.retention.hours 参数 来 配 
置 时 间 ， 默 认 值 为 168 小 时 ， 也 就 是 一 周 。 除 此 以 外 ， 还 有 其 他 两 个 参数 log.retention. 
minutes 和 Log.retention.ms。 这 3 个 参数 的 作用 是 一 样 的， 都 是 决定 消息 多 久 以 后 会 被 删 
除 ， 不 过 还 是 推荐 使 用 log.retention.ms。 如 果 指 定 了 不 止 一 个 参数 ，Kafka 会 优先 使 用 
具有 最 小 值 的 那个 参数 。 


根据 时 间 保 留 数据 和 最 后 修改 时 间 


根据 时 间 保 留 数据 是 通过 检查 磁盘 上 日 志 片 段 文件 的 最 后 修改 时 间 来 实现 
的 。 一 般 来 说 ， 最 后 修改 时 间 指 的 就 是 日 志 片 段 的 关闭 时 间 ， 也 就 是 文件 里 
最 后 一 个 消息 的 时 间 惟 。 不 过 ， 如 果 使 用 管理 工具 在 服务 器 间 移动 分 区 ， 最 
后 修改 时 间 就 不 准确 了 。 时 间 误 差 可 能 导致 这 些 分 区 过 多 地 保留 数据 。 在 第 
9 章 讨论 分 区 移动 时 会 提 到 更 多 这 方面 的 内 容 。 















































3. log.retention.bytes 

另 一 种 方式 是 通过 保留 的 消息 字 节 数 来 判断 消息 是 否 过 期 。 它 的 值 通过 参数 log. 
retention.bytes 来 指定 ， 作 用 在 每 一 个 分 区 上 。 也 就 是 说 ， 如 果 有 一 个 包含 8 个 分 区 的 主 
题 ， 并 且 Log.retention.bytes 被 设 为 1GB ， 那 么 这 个 主题 最 多 可 以 保留 8GB 的 数据 。 所 
以 ， 当 主题 的 分 区 个 数 增加 时 ， 整 个 主题 可 以 保留 的 数据 也 随 之 增加 。 


根据 字 节 大 小 和 时 间 保 留 数据 


如 果 同 时 指定 了 Log.retention.bytes 和 log.retention.ms (或 者 另 一 个 时 
间 参 数 ) ， 只 要 任意 一 个 条 件 得 到 满足 ， 消 息 就 会 被 删除 。 例 如 ， 假 设 Log. 
retention.ms 设置 为 86 400 000 (也 就 是 1 天 )，log.retention.bytes 设置 
为 1 000 000 000 (也 就 是 1GB)， 如 果 消 息 字 节 总 数 在 不 到 一 天 的 时 间 就 超 
过 了 1GB， 那 么 多 出 来 的 部 分 就 会 被 删除 。 相 反 ， 如 果 消 息 字 节 总 数 小 于 
1GB ， 那 么 一 天 之 后 这 些 销 息 也 会 被 删除 ， 尽 管 分 区 的 数据 总 量 小 于 1GB。 




















4. log.segment.bytes 


以 上 的 设置 都 作用 在 日 志 片 段 上 ， 而 不 是 作用 在 单个 消息 上 。 当 消息 到 达 broker 时 ， 它 
们 被 追加 到 分 区 的 当前 日 志 刻 段 上 。 当 日 志 片 段 大 小 达到 log.segment.bytes 指定 的 上 限 
(默认 是 1GB) 时 ， 当 前 日 志 片 段 就 会 被 关闭 ， 一 个 新 的 日 志 片 段 被 打开 。 如 果 一 个 日 志 
片段 被 关闭 ， 就 开始 等 待 过 期 。 这 个 参数 的 值 越 小 ， 就 会 越 频繁 地 关闭 和 分 配 新 文件 ， 从 
而 降低 磁盘 写 人 的 整体 效率 。 


如 果 主 题 的 消息 量 不 大 ， 那 么 如 何 调整 这 个 参数 的 大 小 就 变 得 尤为 重要 。 例 如 ， 如 果 一 个 
主题 每 天 只 接收 100MB 的 消息 ， 而 Log.segment.bytes 使 用 默认 设置 ， 那 么 需要 10 天 时 
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间 才能 填 满 一 个 日 志 片 段 。 因 为 在 日 志 片 段 被 关闭 之 前 消息 是 不 会 过 期 的 ， 所 以 如 果 tog. 
retention.ns 被 设 为 604 800 000 (也 就 是 1 周 ) ， 那 么 日 志 片 段 最 多 需要 17 天 才 会 过 期 。 
这 是 因为 关闭 日 志 片 段 需要 10 天 的 时 间 ， 而 根据 配置 的 过 期 时 间 ， 还 需要 再 保留 7 天 时 
间 (要 等 到 日 志 片 段 里 的 最 后 一 个 消息 过 期 才能 被 删除 )。 


使 用 时 间 戳 获取 偏 移 量 


日 志 片 段 的 大 小 会 影响 使 用 时 间 戳 获取 偏 移 量 。 在 使 用 时 间 改 获取 日 志 侦 移 
量 时 ，Kafka 会 检查 分 区 里 最 后 修改 时 间 大 于 指定 时 间 惟 的 日 志 片 段 (已 经 
被 关闭 的 )， 该 日 志 片 段 的 前 一 个 文件 的 最 后 修改 时 间 小 于 指定 时 间 惟 。 然 
后 ，Kafka 返回 该 日 志 片 段 (也 就 是 文件 名 ) 开头 的 偏 移 量 。 对 于 使 用 时 间 
戳 获 取 偏 移 量 的 操作 来 说 ， 日 志 片 段 越 小 ， 结 果 越 准确 。 




















5. log.segment.ms 


另 一 个 可 以 控制 日 志 片 段 关 闭 时 间 的 参数 是 Log.segment.ms， 它 指定 了 多 长 时 间 之 后 日 
志 片 段 会 被 关闭 。 就 像 Log.retention.bytes 和 Log.retention.ms 这 两 个 参数 一 样 ，log. 
segment.bytes 和 Log.retention.ms 这 两 个 参数 之 间 也 不 存在 互 斥 问题 。 日 志 片 段 会 在 大 
小 或 时 间 达 到 上 限时 被 关闭 ， 就 看 哪个 条 件 先 得 到 满足 。 默 认 情 况 下 ，log.segment.ms 没 
有 设 定 值 ， 所 以 只 根据 大 小 来 关闭 日 志 片 段 。 


基于 时 间 的 日 志 片 段 对 磁盘 性 能 的 影响 

在 使 用 基于 时 间 的 日 志 片 段 时 ， 要 着 重 考 虑 并 行 关闭 多 个 日 志 片 段 对 磁盘 性 
能 的 影响 。 如 果 多 个 分 区 的 日 志 片 段 永 远 不 能 达到 大 小 的 上 限 ， 就 会 发 生 这 
种 情况 ， 因 为 broker 在 启动 之 后 就 开始 计算 日 志 片 段 的 过 期 时 间 ， 对 于 那些 
数据 量 小 的 分 区 来 说 ， 日 志 片 段 的 关闭 操作 总 是 同时 发 生 。 




















6. message.max.bytes 


broker 通过 设置 message.max.bytes 参数 来 限制 单个 消息 的 大 小 ， 默 认 值 是 1 000 000， 也 
就 是 1MB。 如 果 生 产 者 尝试 发 送 的 消息 超过 这 个 大 小 ， 不 仅 消息 不 会 被 接收 ， 还 会 收 到 
broker 返回 的 错误 信息 。 跟 其 他 与 字 节 相关 的 配置 参数 一 样 ， 该 参数 指 的 是 压缩 后 的 消息 
大 小 ， 也 就 是 说 ， 只 要 压缩 后 的 消息 小 于 message.max.bytes 指定 的 值 ， 消 息 的 实际 大 小 
可 以 远大 于 这 个 值 。 
这 个 值 对 性 能 有 显著 的 影响 。 值 越 大 ， 那 么 负责 处 理 网 络 连 接 和 请 求 的 线程 就 需要 花 越 多 
的 时 间 来 处 理 这 些 请 求 。 它 还 会 增加 磁盘 写 入 块 的 大 小 ， 从 而 影响 IO 吞吐 量 。 
在 服务 端 和 客户 端 之 间 协 调 消息 大 小 的 配置 
消费 者 客户 端 设置 的 fetch.message.max.bytes 必须 与 服务 器 端 设 置 的 消息 
大 小 进行 协调 。 如 果 这 个 值 比 message.max.bytes 小 ， 那 么 消费 者 就 无 法 读 
取 比 较 大 的 消息 ， 导 致 出 现 消 费 者 被 阻塞 的 情况 。 在 为 集群 里 的 broker 配置 
repLica.fetch.max.bytes 参数 时 ， 也 遵循 同样 的 原则 。 
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2.4 硬件 的 选择 


为 Kafka 选择 合适 的 硬件 更 像 是 一 门 艺术 。Kafka 本 身 对 硬件 没有 特别 的 要 求 ， 它 可 以 运 
行 在 任何 系统 上 。 不 过 ， 如 果 比 较 关 注 性 能 ， 那 么 就 需要 考虑 儿 个 会 影响 整体 性 能 的 因 
素 : 磁盘 厨 吐 量 和 容量 、 内 存 、 网 络 和 CPU。 在 确定 了 性 能 关注 点 之 后 ， 就 可 以 在 预算 范 
围 内 选择 最 优化 的 硬件 配置 。 


2.4.1 磁盘 吞吐 量 

生产 者 客户 端的 性 能 直接 受到 服务 器 端 磁盘 吞吐 量 的 影响 。 生 产 者 生成 的 消息 必须 被 提交 
到 服务 器 保存 ， 大 多 数 客户 端 在 发 送 消 息 之 后 会 一 直 等 待 ， 直 到 至 少 有 一 个 服务 器 确认 消 
息 已 经 成 功 提交 为 止 。 也 就 是 说 ， 磁 盘 写 入 速度 越 快 ， 生 成 消息 的 延迟 就 越 低 。 

在 苯 虑 硬盘 类 型 对 磁盘 吞吐 量 的 影响 时 ， 是 选择 传统 的 机 械 硬 盘 (HDD) 还 是 固态 硬盘 
(SSD)， 我 们 可 以 很 容易 地 作出 决定 。 固 态 硬 盘 的 查找 和 访问 速度 都 很 快 ， 提 供 了 最 好 的 
性 能 。 机 械 硬盘 更 便宜 ， 单 块 硬盘 容量 也 更 大 。 在 同一 个 服务 器 上 使 用 多 个 机 械 硬 盘 ， 可 
以 设置 多 个 数据 目录， 或 者 把 它们 设置 成 磁盘 阵列 ， 这 样 可 以 提升 机 械 硬盘 的 性 能 。 其 他 
方面 的 因素 ， 比 如 磁盘 特定 的 技术 ( 串 行 连接 存储 技术 或 SATA)， 或 者 磁盘 控制 器 的 质 
量 ， 都 会 影响 吞吐 量 。 



















































































2.4.2 ”磁盘 容量 

磁盘 容量 是 另 一 个 值得 讨论 的 话题 。 需 要 多 大 的 磁盘 容量 取决 于 需要 保留 的 消 息 数 量 。 如 
果 服 务 器 每 天 会 收 到 1TB 消息 ， 并 且 保 留 7 天 ， 那 么 就 需要 7TB 的 存储 空间 ， 而 且 还 要 
为 其 他 文件 提供 至 少 10% 的 额外 空间 。 除 此 之 外 ， 还 需要 提供 缓冲 区 ， 用 于 应 付 消 息 流量 
的 增长 和 波动 。 

在 决定 扩展 Kafka 集群 规模 时 ， 存 储 容量 是 一 个 需要 考虑 的 因素 。 通 过 让 主题 拥有 多 个 分 
区 ， 集 群 的 总 流量 可 以 被 均衡 到 整个 集群 ， 而 且 如 果 单 个 broker 无 法 支撑 全 部 容量 ， 可 以 
让 其 他 broker 提供 可 用 的 容量 。 存 储 容量 的 选择 同时 受到 集群 复制 策略 的 影响 (将 在 第 6 
章 讨论 更 多 的 细节 ) 。 


2.4.3 内存 

除了 磁盘 性 能 外 ， 服 务 器 端 可 用 的 内 存 容 量 是 影响 客户 端 性 能 的 主要 因素 。 磁 盘 性 能 影响 
生产 者 ， 而 内 存 影 响 消 费 者 。 消 费 者 一 般 从 分 区 尾部 读 取消 息 ， 如 果 有 生产 者 存在 ， 就 紧 
跟 在 生产 者 后 面 。 在 这 种 情况 下 ， 消 费 者 读 取 的 消息 会 直接 存放 在 系统 的 页 面 缓 存 里 ， 这 
比 从 磁盘 上 重新 读 取 要 快 得 多 。 

运行 Kafka 的 JVM 不 需要 太 大 的 内 存 ， 剩 余 的 系统 内 存 可 以 用 作 页 面 缓存 ， 或 者 用 来 缓 
存 正 在 使 用 中 的 日 志 片 段 。 这 也 就 是 为 什么 不 建议 把 Kafka 同 其 他 重要 的 应 用 程序 部 署 
在 一 起 的 原因 ， 它 们 需要 共享 页 面 缓存 ， 最 终 会 降低 Kafka 消费 者 的 性 能 。 














































































































2.4.4 网 络 


网 络 吞 吐 量 决定 了 Kafka 能 够 处 理 的 最 大 数据 流量 。 它 和 磁盘 存储 是 制约 Kafka 扩展 规模 
的 主要 因素 。Kafka 支持 多 个 消费 者 ， 造 成 流入 和 流出 的 网 络 流 量 不 平衡 ， 从 而 让 情况 变 
得 更 加 复杂 。 对 于 给 定 的 主题 ， 一 个 生产 者 可 能 每 秒 钟 写 入 1MB 数据 ， 但 可 能 同时 有 多 
个 消费 者 瓜分 网 络 流量 。 其 他 的 操作 ， 如 集群 复制 (在 第 6 章 介 绍 ) 和 镜像 (在 第 8 章 介 
绍 ) 也 会 占用 网 络 流 量 。 如 果 网 络 接口 出 现 饮 和， 那么 集群 的 复制 出 现 延 时 就 在 所 难免 ， 
从 而 让 集群 不 堪 一 击 。 
















































































2.4.5 CPU 


与 磁盘 和 内 存 相 比 ，Kafka 对 计算 处 理 能 力 的 要 求 相对 较 低 ， 不 过 它 在 一 定 程度 上 还 是 
会 影响 整体 的 性 能 。 客 户 端 为 了 优化 网 络 和 磁盘 空间 ， 会 对 消息 进行 压缩 。 服 务 器 需要 
对 消息 进行 批量 解压 ， 设 置 偏 移 量 ， 然 后 重新 进行 批量 压缩 ， 再 保存 到 磁盘 上 。 这 就 是 
Kafka 对 计算 处 理 能 力 有 所 要 求 的 地 方 。 不 过 不 管 怎样 ， 这 都 不 应 该 成 为 选择 硬件 的 主 
要 考虑 因素 。 


2.5 云端 的 Kafka 


Kafka 一 般 被 安装 在 云端 ， 比 如 亚马逊 网 络 服务 (Amazon Web Services，AWS)。AWS 提 
供 了 很 多 不 同 配置 的 实例 ， 我 们 要 根据 Kafka 的 性 能 优先 级 来 选择 合适 的 实例 。 可 以 先 从 
要 保留 数据 的 大 小 开始 考虑 ， 然 后 考虑 生产 者 方面 的 性 能 。 如 果 要 求 低 延迟 ， 那 么 就 需要 
专门 为 IO 优化 过 的 使 用 固态 硬盘 的 实例 ， 否 则 ， 使 用 配备 了 临时 存储 的 实例 就 可 以 了 。 
选 好 存储 类 型 之 后 ， 再 选择 CPU 和 内 存 就 容易 得 多 。 


实际 上 ， 如 果 使 用 AWS， 一般 会 选择 m4 实例 或 r3 实例 。m4 实例 允许 较 长 时 间 地 保留 数 
据 ， 不 过 磁盘 吞吐 量 会 小 一 些 ， 因 为 它 使 用 的 是 弹性 块 存储 。r3 实例 使 用 固态 硬盘 ， 具 有 
较 高 的 吞吐 量 ， 但 保留 的 数据 量 会 有 所 限制 。 如 果 想 两 者 兼顾 ， 那 么 需要 升级 成 2 实例 或 
d2 实例 ， 不 过 它们 的 成 本 要 高 得 多 。 


2.6 Kafka 集 群 


单个 Kafka 服务 器 足以 满足 本 地 开发 或 POC 要 求 ， 不 过 集群 也 有 它 的 强大 之 处 。 使 用 集 
群 最 大 的 好 处 是 可 以 跨 服务 器 进行 负载 均衡 ， 再 则 就 是 可 以 使 用 复制 功能 来 避免 因 单 点 故 
障 造 成 的 数据 丢失 。 在 维护 Kafka 或 底层 系统 时 ， 使 用 集群 可 以 确保 为 客户 端 提供 高 可 用 
性 。 本 市 只 是 介绍 如 何 配置 Kafka 集群 ， 第 6 章 将 介绍 更 多 关于 数据 复制 的 内 容 。 
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2-2: 一 个 简单 的 Kafka 集群 


2.6.1 需要 多 少 个 broker 


一 个 Kafka 集群 需要 多 少 个 broker 取决 于 以 下 几 个 因素 。 首 先 ， 需 要 多 少 磁 盘 空间 来 保 
留 数据 ， 以 及 单个 broker 有 多 少 空间 可 用 。 如 果 整 个 集群 需要 保留 10TB 的 数据 ， 每 个 
broker 可 以 存储 2TB ， 那 么 至 少 需要 $ 个 broker。 如 果 启 用 了 数据 复制 ， 那 么 至 少 还 需要 
一 倍 的 空间 ， 不 过 这 要 取决 于 配置 的 复制 系数 是 多 少 (将 在 第 6 章 介 绍 )。 也 就 是 说 ， 如 
果 局 用 了 数据 复制 ， 那 么 这 个 集群 至 少 需要 10 个 broker。 


第 二 个 要 考虑 的 因素 是 集群 处 理 请 求 的 能 力 。 这 通常 与 网 络 接口 处 理 客户 端 流量 的 能 力 有 
关 ， 特 别 是 当 有 多 个 消费 者 存在 或 者 在 数据 保留 期 间 流 量 发 生 波 动 (比如 高 峰 时 段 的 流量 
爆发 ) 时 。 如 果 单个 broker 的 网 络 接口 在 高 峰 时 段 可 以 达到 80% 的 使 用 量 ， 并且 有 两 个 
消费 者 ， 那 么 消费 者 就 无 法 保持 峰值 ， 除 非 有 两 个 broker。 如 果 集 群 启用 了 复制 功能 ， 则 
要 把 这 个 额外 的 消费 者 考虑 在 内 。 因 磁盘 否 吐 量 低 和 系统 内 存 不 足 造成 的 性 能 问题 ， 也 可 
以 通过 扩展 多 个 broker 来 解决 。 










































































2.6.2 broker 配 置 


要 把 一 个 broker 加 入 到 集群 里 ， 只 需要 修改 两 个 配置 参数 。 首 先 ， 所 有 broker 都 必须 配 
置 相同 的 zookeeper .connect， 该 参数 指定 了 用 于 保存 元 数据 的 Zookeeper 群 组 和 路 径 。 
其 次 ， 每 个 broker 都 必须 为 broker .id 参数 设置 唯一 的 值 。 如 果 两 个 broker 使 用 相同 的 
broker.id， 那 么 第 二 个 broker 就 无 法 启动 。 在 运行 集群 时 ， 还 可 以 配置 其 他 一 些 参数 ， 特 
别 是 那些 用 于 控制 数据 复制 的 参数 ， 这 些 将 在 后 续 的 章节 介绍 。 












































2.6.3 ”操作 系统 调 优 

大 部 分 Linux 发 行 版 默认 的 内 核 调 优 参 数 配置 已 经 能 够 满足 大 多 数 应 用 程序 的 运行 需求 ， 
不 过 还 是 可 以 通过 调整 一 些 参 数 来 进一步 提升 Kafka 的 性 能 。 这 些 参数 主要 与 虚拟 内 存 、 
网 络 子 系统 和 用 来 存储 日 志和 片段 的 磁盘 挂 载 点 有 关 。 这 些 参 数 一 般 配置 在 /etc/sysctl.conf 
文件 里 ， 不 过 在 对 内 核 参数 进行 调整 时 ， 最 好 参考 操作 系统 的 文档 。 


1. 虚拟 内 存 

一 般 来 说 ，Linux 的 虚拟 内 存 会 根据 系统 的 工作 负荷 进行 自动 调整 。 我 们 可 以 对 交换 分 区 
的 处 理 方 式 和 内 存 脏 页 进行 调整 ， 从 而 让 Kafka 更 好 地 处 理工 作 负 载 。 

对 于 大 多 数 依赖 吞吐 量 的 应 用 程序 来 说 ， 要 尽量 避免 内 存 交 换 。 内 存 页 和 磁盘 之 间 的 交换 
对 Kafka 各 方面 的 性 能 都 有 重大 影响 。Kafka 大 量 地 使 用 系统 页 面 缓 存 ， 如 果 虚 拟 内 存 被 
交换 到 磁盘 ， 说 明 已 经 没有 多 余 内 存 可 以 分 配给 页 面 缓存 了 。 

一 种 避免 内 存 交 换 的 方法 是 不 设置 任何 交换 分 区 。 内 存 交换 不 是 必需 的 ， 不 过 它 确实 能 够 
在 系统 发 生 灾难 性 错误 时 提供 一 些 帮助 。 进 行内 存 交 换 可 以 防止 操作 系统 由 于 内 存 不 足 而 
突然 终止 进程 。 基 于 上 述 原 因 ， 建 议 把 vm.swappiness 参数 的 值 设 置 得 小 一 点 ， 比 如 1。 该 
参数 指明 了 虚拟 机 的 子 系 统 将 如 何 使 用 交换 分 区 ， 而 不 是 只 把 内 存 页 从 页 面 缓存 里 移 除 。 
要 优先 考虑 减 小 页 面 缓 存 ， 而 不 是 进行 内 存 交 换 。 


为 什么 不 把 vm.swappiness 设 为 零 

先前 ， 人 们 建议 尽量 把 vm.swapiness 设 为 0， 它 意味 着 “除非 发 生 内 存 洲 
出 ， 否 则 不 要 进行 内 存 交 换 ”"。 直 到 Linux 内 核 3.5-rcl 版 本 发 布 ， 这 个 值 的 
意义 才 发 生 了 变化 。 这 个 变化 被 移植 到 其 他 的 发 行 版 上 上 ， 包 括 Red Hat 企业 
版 内 核 2.6.32-303。 在 发 生变 化 之 后 ，0 意味 着 “在 任何 情况 下 都 不 要 发 生 交 
换 "。 所 以 现在 建议 把 这 个 值 设 为 1。 

































































脏 页 会 被 冲刷 到 磁盘 上 ， 调 整 内 核对 脏 页 的 处 理 方式 可 以 让 我 们 从 中 获 益 。Kafka 依赖 IO 性 
能 为 生产 者 提供 快速 的 响应 。 这 就 是 为 什么 日 志 片 段 一 般 要 保存 在 快速 磁盘 上 ， 不 管 是 单个 
快速 磁盘 (如 SSD) 还 是 具有 NVRAM 缓存 的 磁盘 子 系统 (如 RAID)。 这 样 一 来 ， 在 后 台 刷 
新 进程 将 脏 页 写 入 磁盘 之 前 ， 可 以 减少 脏 页 的 数量 ， 这 个 可 以 通过 将 vm.dirty_background_ 
ratio 设 为 小 于 10 的 值 来 实现 。 该 值 指 的 是 系统 内 存 的 百分比 ， 大 部 分 情况 下 设 为 5 就 可 以 
了 。 它 不 应 该 被 设 为 0， 因 为 那样 会 促使 内 核 频 繁 地 刷新 页 面 ， 从 而 降低 内 核 为 底层 设备 的 
磁盘 写 入 提供 缓冲 的 能 

通过 设置 vm.dirty_ratio 参数 可 以 增加 被 内 核 进程 刷新 到 磁盘 之 前 的 脏 页 数量 ， 可 以 将 它 
设 为 大 于 20 的 值 (这 也 是 系统 内 存 的 百分比 )。 这 个 值 可 设置 的 范围 很 广 ，60~80 是 个 比 
较 合 理 的 区 间 。 不 过 调整 这 个 参数 会 带 来 一 些 风 险 ， 包 括 未 刷新 磁盘 操作 的 数量 和 同步 刷 
新 引起 的 长 时 间 IO 等 待 。 如 果 该 参数 设置 了 较 高 的 值 ， 建 议 启 用 Kafka 的 复制 功能 ， 避 
免 因 系 统 崩 潢 造 成 数据 丢失 。 

为 了 给 这 些 参数 设置 合适 的 值 ， 最 好 是 在 Kafka 集群 运行 期 间 检 查 脏 页 的 数量 ， 不 管 是 在 
生存 环境 还 是 模拟 环境 。 可 以 在 /proc/vmstat 文件 里 查看 当前 脏 页 数量 。 
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# cat /proc/vmstat | egrep "dirty|writeback" 
nr_dirty 3875 

nr_writeback 29 

nr_writeback_temp 0 

# 


2. 磁盘 


除了 选择 合适 的 磁盘 硬件 设备 和 使 用 RAID 外 ， 文 件 系 统 是 影响 性 能 的 另 一 个 重要 因素 。 
有 很 多 种 文件 系统 可 供 选 择 ， 不 过 对 于 本 地 文件 系统 来 说 ，EXT4 (第 四 代 可 扩展 文件 系 
统 ) 和 XFS 最 为 常见 。 近 来 ，XFS 成 为 很 多 Linux 发 行 版 默认 的 文件 系统 ， 因 为 它 只 需 
要 做 少量 调 优 就 可 以 承担 大 部 分 的 工作 负荷 ， 比 EXT4 具有 更 好 的 表现 。EXT4 也 可 以 做 
得 很 好 ， 但 需要 做 更 多 的 调 优 ， 存 在 较 大 的 风险 。 其 中 就 包括 设置 更 长 的 提交 间隔 (默认 
是 5)， 以 便 降 低 刷新 的 频率 。EXT4 还 引入 了 块 分 配 延 迟 ， 一 旦 系统 崩 涡 ， 更 容易 造成 数 
据 丢失 和 文件 系统 毁坏 。XFS 也 使 用 了 分 配 延迟 算法 ， 不 过 比 EXT4 的 要 安全 些 。XFS 为 
Kafka 提供 了 更 好 的 性 能 ， 除 了 由 文件 系统 提供 的 自动 调 优 之 外 ， 无 需 额外 的 调 优 。 批 量 
磁盘 写 和 人 具有 更 高 的 效率 ， 可 以 提升 整体 的 IO 吞吐 量 。 


不 管 使 用 哪 一 种 文件 系统 来 存储 日 志 片 段 ， 最 好 要 对 挂 载 点 的 noatime 参数 进行 合理 的 设 
置 。 文 件 元 数据 包含 3 个 时 间 惟 : 创建 时 间 (ctime)、 最 后 修改 时 间 (mtime) 以 及 最 后 访 
问 时 间 (atime)。 默 认 情 况 下 ， 每 次 文件 被 读 取 后 都 会 更 新 atime， 这 会 导致 大 量 的 磁盘 写 
操作 ， 而 且 atime 属性 的 用 处 不 大 ， 除 非 某 些 应 用 程序 想 要 知道 其 个 文件 在 最 近 一 次 修改 
后 有 没有 被 访问 过 (这 种 情况 可 以 使 用 realtime)。Kafka 用 不 到 该 属性 ， 所 以 完全 可 以 把 
它 禁 用 掉 。 为 挂 载 点 设置 noatime 参数 可 以 防止 更 新 atime， 但 不 会 影响 ctime 和 mtime。 


3. 网 络 


默认 情况 下 ， 系 统 内 核 没 有 针对 快速 的 大 流量 网 络 传 输 进行 优化 ， 所 以 对 于 应 用 程序 来 
说 ,一 般 需 要 对 Linux 系统 的 网 络 栈 进行 调 优 ， 以 实现 对 大 流量 的 支持 。 实 际 上 ， 调 整 
Kafka 的 网 络 配 置 与 调整 其 他 大 部 分 Web 服务 器 和 网 络 应 用 程序 的 网 络 配置 是 一 样 的 。 
首先 可 以 对 分 配给 socket 读 写 缓冲 区 的 内 存 大 小 作出 调整 ， 这 样 可 以 显著 提升 网 络 的 传 
输 性 能 。socket 读 写 缓冲 区 对 应 的 参数 分 别 是 net.core.wmem_default 和 net.core.rmem_ 
default， 合 理 的 值 是 131 072 (也 就 是 128KB ) 。 读 写 缓冲 区 最 大 值 对 应 的 参数 分 别 是 
net.core.wmem_max 和 net.core.rmem_max， 合 理 的 值 是 2 097 152 (也 就 是 2MB )。 要 注 
意 ， 最 大 值 并 不 意味 着 每 个 socket 一 定 要 有 这 么 大 的 缓冲 空间 ， 只 是 说 在 必要 的 情况 下 
才 会 达到 这 个 值 。 

除了 设置 socket 外 ， 还 需要 设置 TCP socket 的 读 写 缓冲 区 ， 它 们 的 参数 分 别 是 net.ipv4. 
tcp_wmem 和 net.ipv4.tcp_rmem。 这 些 参数 的 值 由 3 个 整数 组 成 ， 它 们 使 用 空格 分 隔 ， 分 别 
表示 最 小 值 、 默 认 值 和 最 大 值 。 最 大 值 不 能 大 于 net.core.wmem_max 和 net.core.rmem_max 
指定 的 大 小 。 例 如 ,“4096 65536 2048000” 表 示 最 小 值 是 4KB、 默 认 值 是 64KB、 最 大 值 
是 2MB。 根 据 Kafka 服务 器 接收 流量 的 实际 情况 ， 可 能 需要 设置 更 高 的 最 大 值 ， 为 网 络 连 
接 提供 更 大 的 缓冲 空间 。 


还 有 其 他 一 些 有 用 的 网 络 参数 。 例 如 ， 把 net.ipv4.tcp_window_scaling 设 为 1， 启 用 TCP 
时 间 窗 扩展 ， 可 以 提升 客户 端 传输 数据 的 效率 ， 传 输 的 数据 可 以 在 服务 器 端 进行 缓 串 。 把 
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net.ipv4.tcp_max_syn_backlog 设 为 比 默认 值 1024 更 大 的 值 ， 可 以 接受 更 多 的 并 发 连接 。 
把 net.core.netdev_max_backlog 设 为 比 默认 值 1000 更 大 的 值 ， 有 助 于 应 对 网 络 流量 的 爆 
发 ， 特 别 是 在 使 用 千 兆 网 络 的 情况 下 ， 人 允许 更 多 的 数据 包 排 队 等 待 内 核 处 理 。 


2.7 生产 环境 的 注意 事项 


当 你 准备 把 Kafka 从 测试 环境 部 署 到 生产 环境 时 ， 需 要 注意 一 些 事项 ， 以 便 创 建 更 可 靠 的 
消息 服务 。 


2.7.1 垃圾 回收 器 选项 


为 应 用 程序 调整 Java 垃圾 回收 参数 就 像 是 一 门 艺术 ， 我 们 需要 知道 应 用 程序 是 如 何 使 用 内 
存 的 ， 还 需要 大 量 的 观察 和 试 错 。 幸 运 的 是 ，Java 7 为 我 们 带 来 了 G1 垃圾 回收 器 ， 让 这 
种 状况 有 所 改观 。 在 应 用 程序 的 整个 生命 周期 ，G1 会 自动 根据 工作 负载 情况 进行 自我 调 
节 ， 而 且 它 的 停顿 时 间 是 恒定 的 。 它 可 以 轻松 地 处 理 大 块 的 堆 内 存 ， 把 堆 内 存 分 为 若干 小 
块 的 区 域 ， 每 次 停顿 时 并 不 会 对 整个 堆 空间 进行 回收 。 
正常 情况 下 ，G1 只 需要 很 少 的 配置 就 能 完成 这 些 工作 。 以 下 是 G1 的 两 个 调整 参数 。 
MaxGCPauseMillis.: 
该 参数 指定 每 次 垃圾 回收 默认 的 停顿 时 间 。 该 值 不 是 固定 的 ，G1 可 以 根据 需要 使 用 更 
长 的 时 间 。 它 的 默认 值 是 200ms。 也 就 是 说 ，G1 会 决定 垃圾 回收 的 频率 以 及 每 一 轮 需 
要 回收 多 少 个 区 域 ， 这 样 算 下 来 ， 每 一 轮 垃圾 回收 大 概 需要 200ms 的 时 间 。 
InitiatingHeapOccupancyPercent. 
该 参数 指定 了 在 G1 启动 新 一 轮 垃圾 回收 之 前 可 以 使 用 的 堆 内 存 百分比 ， 默 认 值 是 45。 
也 就 是 说 ， 在 堆 内 存 的 使 用 率 达 到 45% 之 前 ，G1 不 会 启动 垃圾 回收 。 这 个 百分比 包括 
新 生 代 和 老年 代 的 内 存 。 


Kafka 对 堆 内 存 的 使 用 率 非 常 高 ， 容 易 产 生 垃 圾 对 象 ， 所 以 可 以 把 这 些 值 设 得 小 一 些 。 如 
果 一 台 服 务 器 有 64GB 内 存 ， 并 且 使 用 5GB 堆 内 存 来 运行 Kafka， 那 么 可 以 参考 以 下 的 配 
置 MaxGCPauseMillis 可 以 设 为 20ms; InitiatingHeapOccupancyPercent 可 以 设 为 33$， 这 
样 可 以 让 垃圾 回收 比 默认 的 要 早 一 些 启动 。 


Kafka 的 启动 脚本 并 没有 启用 G1 回收 器 ， 而 是 使 用 了 Parallel New 和 CMS ( Concurrent 
Mark-Sweep， 并 发 标记 和 清除 ) 垃圾 回收 器 。 不 过 它 可 以 通过 环境 变量 来 修改 。 本 章 前 面 
的 内 容 使 用 start 命令 来 修改 它 : 


# export JAVA_HOME=/usr/java/jdk1.8.0_51 

# export KAFKA_JVM PERFORMANCE_OPTS="-server -XX:+UseG1GC 
-XX:MaxGCPauseMillis=20 -XX:InitiatingHeapOccupancyPercent=35 
-XX:+DisableExplicitGC -Djava.awt.headless=true" 

# /usr/local/kafka/bin/kafka-server-start.sh -daemon 
/usr/local/kafka/config/server.properties 


























































































































2.7.2 ”数据 中 心 布 局 


在 开发 阶段 ， 人 们 并 不 会 太 关心 Kafka 服务 器 在 数据 中 心 所 处 的 物理 位 置 ， 因 为 即使 集群 
在 短 时 间 内 出 现 局 部 或 完全 不 可 用 ， 也 不 会 造成 太 大 影响 。 但 是 ， 在 生产 环境 ， 服 务 不 可 
用 意味 着 金钱 的 损失 ， 有 具体 表现 为 无 法 为 用 户 提供 服务 或 者 不 知道 用 户 正在 做 什么 。 这 个 
时 候 ， 使 用 Kafka 集群 的 复制 功能 就 变 得 尤为 重要 〈 请 参考 第 6 章 ) ， 而 服务 器 在 数据 中 
心 所 处 的 物理 位 置 也 变 得 重要 起 来 。 如 果 在 部 署 Kafka 之 前 没有 考虑 好 这 个 问题 ， 那 么 在 
后 续 的 维护 过 程 中 ， 移 动 服务 器 需要 耗费 更 高 的 成 本 。 


在 为 broker 增加 新 的 分 区 时 ，broker 并 无 法 获知 机 架 的 信息 。 也 就 是 说 ， 两 个 broker 有 
可 能 是 在 同一 个 机 架 上 ， 或 者 在 同一 个 可 用 区 域 里 〈 如 果 运 行 在 像 AWS 这 样 的 的 云 服务 
上 )， 所 以 ， 在 为 分 区 添加 副本 的 时 候 ， 这 些 副本 很 可 能 被 分 配给 同一 个 机 架 上 的 broker， 
它们 使 用 相同 的 电源 和 网 络 连接 。 如 果 该 机 架 出 了 问题 ， 这 些 分 区 就 会 离线 ， 客 户 端 就 无 
法 访问 到 它们 。 更 糟糕 的 是 ， 如 果 发 生 不 完整 的 主 市 点 选举 ， 那 么 在 恢复 时 就 有 可 能 丢失 
数据 (第 6 章 将 介绍 更 多 细节 )。 


所 以 ， 最 好 把 集群 的 broker 安装 在 不 同 的 机 架 上 ， 至 少 不 要 让 它们 共享 可 能 出 现 单 点 故障 
的 基础 设施 ， 比 如 电源 和 网 络 。 也 就 是 说 ， 部 署 服 务 器 需要 至 少 两 个 电源 连接 (两 个 不 同 
的 回路 ) 和 两 个 网 络 交换 器 (保证 可 以 进行 无 颖 的 故障 切换 )。 除 了 这 些 以 外 ， 最 好 还 要 
把 broker 安放 在 不 同 的 机 架 上 。 因 为 随 着 时 间 的 推移 ， 机 架 也 需要 进行 维护 ， 而 这 会 导致 
机 器 离线 (比如 移动 机 器 或 者 重新 连接 电源 )。 












































2.7.3 共享 Zookeeper 


Kafka 使 用 Zookeeper 来 保存 broker、 主 题 和 分 区 的 元 数据 信息 。 对 于 一 个 包含 多 个 节点 的 
Zookeeper 群 组 来 说 ，Kafka 集群 的 这 些 流量 并 不 算 多 ， 那 些 写 操作 只 是 用 于 构造 消费 者 群 
组 或 集群 本 身 。 实 际 上 ， 在 很 多 部 署 环境 里 ， 会 让 多 个 Kafka 集群 共享 一 个 Zookeeper 群 
组 (每 个 集群 使 用 一 个 chroot 路 径 ) 。 


Kafka 消费 者 和 Zookeeper 


在 Kafka 0.9.0.0 版 本 之 前 ， 除 了 broker 之 外 ， 消 费 者 也 会 使 用 Zookeeper 来 
保存 一 些 信息 ， 比 如 消费 者 群 组 的 信息 、 主 题 信息 、 消 费 分 区 的 偏 移 量 (在 
消费 者 群 组 里 发 生 失 效 转 移 时 会 用 到 )。 到 了 0.9.0.0 版 本 ，Kafka 引入 了 一 
个 新 的 消费 者 接口 ， 人 允许 broker 直接 维护 这 些 信息 。 这 个 新 的 消费 者 接口 将 
在 第 4 章 介 绍 。 


























不 过 ， 消 费 者 和 Zookeeper 之 间 还 是 有 一 个 值得 注意 的 地 方 ， 消 费 者 可 以 选择 将 偏 移 量 提 
交 到 Zookeeper 或 Kafka， 还 可 以 选择 提交 偏 移 量 的 时 间 间 隔 。 如 果 消 费 者 将 偏 移 量 提交 
到 Zookeeper， 那 么 在 每 个 提交 时 间 点 上 ， 消 费 者 将 会 为 每 一 个 消费 的 分 区 往 Zookeeper 写 
入 一 次 偏 移 量 。 合 理 的 提交 间隔 是 1 分钟， 因为 这 刚好 是 消费 者 群 组 的 某 个 消费 者 发 生 失 
效 时 能 够 读 取 到 重复 消息 的 时 间 。 值 得 注意 的 是 ， 这 些 提交 对 于 Zookeeper 来 说 流量 不 算 
小 ， 特 别 是 当 集 群 里 有 多 个 消费 者 的 时 候 。 如 果 Zookeeper 群 组 无 法 处 理 太 大 的 流量 ， 就 
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有 必要 使 用 长 一 点 的 提交 时 间 间 隔 。 不 过 不 管 怎样 ， 还 是 建议 使 用 最 新 版 本 的 Kafka， 让 
消费 者 把 偏 移 量 提交 到 Kafka 服务 器 上 ， 消 除 对 Zookeeper 的 依赖 。 


虽然 多 个 Kafka 集 群 可 以 共享 一 个 Zookeeper 群 组 ， 但 如 果 有 可 能 的 话 ， 不 建议 
把 Zookeeper 共享 给 其 他 应 用 程序 。Kafka 对 Zookeeper 的 延迟 和 超时 比较 敏感 ， 与 
Zookeeper 群 组 之 间 的 一 个 通信 异常 就 可 能 导致 Kafka 服务 器 出 现 无 法 预测 的 行为 。 这 样 
很 容易 让 多 个 broker 同时 离线 ， 如 果 它 们 与 Zookeeper 之 间断 开 连 接 ， 也 会 导致 分 区 离 
线 。 这 也 会 给 集群 控制 器 带 来 压力 ， 在 服务 器 离线 一 段 时 间 之 后 ， 当 控制 器 尝试 关闭 一 个 
服务 器 时 ， 会 表现 出 一 些 细小 的 错误 。 其 他 的 应 用 程序 因 重 度 使 用 或 进行 不 恰当 的 操作 给 
Zookeeper 群 组 带 来 压力 ， 所 以 最 好 让 它们 使 用 自己 的 Zookeeper 群 组 。 


2.8 总结 


在 这 一 章 ， 我 们 学 习 了 如 何 运 行 Kafka， 同 时 也 讨论 了 如 何 为 Kafka 选择 合适 的 硬件 ， 以 
及 在 生产 环境 中 使 用 Kafka 需要 注意 的 事项 。 有 了 Kafka 集群 之 后 ， 接 下 来 要 介绍 基本 
的 客户 端 应 用 程序 。 后 面 两 章 将 介绍 如 何 创 建 客户 端 ， 并 用 它们 向 Kafka 生产 消息 (第 3 
章 ) 以 及 从 Kafka 读 取 这 些 消息 (第 4 章 )。 






























































第 3 章 


向 Kafka 写 入 数据 








Kafka 生 产 者 


不 管 是 把 Kafka 作为 消息 队列 、 消 息 总 线 还 是 数据 存储 平台 来 使 用 ， 总 是 需要 有 一 个 可 以 
往 Kafka 写 入 数据 的 生产 者 和 一 个 可 以 从 Kafka 读 取 数 据 的 消费 者 ， 或 者 一 个 兼 具 两 种 角 
色 的 应 用 程序 。 


例如 ， 在 一 个 信用 卡 事务 处 理 系 统 里 ， 有 一 个 客户 端 应 用 程序 ， 它 可 能 是 一 个 在 线 商店 ， 
每 当 有 支付 行为 发 生 时 ， 它 负责 把 事务 发 送 到 Kafka 上 。 另 一 个 应 用 程序 根据 规则 引擎 检 
查 这 个 事务 ， 决 定 是 批准 还 是 拒绝 。 批 准 或 拒绝 的 响应 消息 被 写 回 Kafka， 然 后 发 送 给 发 
起 事务 的 在 线 商店 。 第 三 个 应 用 程序 从 Kafka 上 读 取 事务 和 审核 状态 ， 把 它们 保存 到 数据 
库 ， 随 后 分 析 师 可 以 对 这 些 结果 进行 分 析 ， 或 许 还 能 借 此 改进 规则 引擎 。 
开发 者 们 可 以 使 用 Kafka 内 置 的 客户 端 API 开发 Kafka 应 用 程序 。 
在 这 一 章 ， 我 们 将 从 Kafka 生产 者 的 设计 和 组 件 讲 起 ， 学 习 如 何 使 用 Kafka 生产 者 。 我 们 
将 演示 如 何 创建 KafkaProducer 和 ProducerRecords 对 象 、 如 何 将 记录 发 送 给 Kafka， 以 及 
如 何 处 理 从 Kafka 返回 的 错误 ， 然 后 介绍 用 于 控制 生产 者 行为 的 重要 配置 选项 ， 最 后 深入 
探讨 如 何 使 用 不 同 的 分 区 方法 和 序列 化 器 ， 以 及 如 何 自 定义 序列 化 器 和 分 区 器 。 
在 第 4 章 ， 我 们 将 会 介绍 Kafka 的 消费 者 客户 端 ， 以 及 如 何 从 Kafka 读 取 消息 。 

第 三 方 客户 端 
除了 内 置 的 客户 端 外 ，Kafka 还 提供 了 二 进 制 连接 协议 ， 也 就 是 说 ， 我 们 直 
接 向 Kafka 网 络 端口 发 送 适 当 的 字 节 序列 ， 就 可 以 实现 从 Kafka 读 取 消息 或 
往 Kafka 写 入 消息 。 还 有 很 多 用 其 他 语言 实现 的 Kafka 客户 端 ， 比 如 C++、 
Python、Go 语言 等 ， 它 们 都 实现 了 Kafka 的 连接 协议 ， 使 得 Kafka 不 仅仅 
局 限于 在 Java 里 使 用 。 这 些 客户 端 不 属于 Kafka 项 目 ， 不 过 Kafka 项 目 wiki 
上 提供 了 一 个 清单 ， 列 出 了 所 有 可 用 的 客户 端 。 连 接 协 议和 第 三 方 客户 端 超 
出 了 本 章 的 讨论 范围 。 
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3.1 生产 者 概览 








一 个 应 用 程序 在 很 多 情况 下 需要 往 Kafka 写 入 消息 ， 记录 用 户 的 活动 (用 于 审计 和 分 析 )、 











记录 度量 指标 、 保 存 日 志 消 息 、 

















记录 智能 家 电 的 信息 、 与 其 他 应 用 程序 进行 异步 通信 、 缓 


冲 即将 写 入 到 数据 库 的 数据 ， 等 等 。 


多 样 的 使 用 场景 意味 着 多 样 的 需求 :是否 每 个 消息 都 很 重要 ?是否 允许 丢失 一 小 部 分 消 
息 ? 侦 尔 出 现 重复 消息 是 否 可 以 接受 ?是 否 有 严格 的 延迟 和 否 吐 量 要 求 ? 











在 之 前 提 到 的 信用 卡 事 务 处 理 系 


最 大 为 500ms， 对 吞吐 量 要 求 较 高 





保存 网 站 的 点 击 信息 是 另 一 种 使 
的 消息 重复 ， 延 迟 可 以 高 一 些 ， 
后 可 以 马上 加 载 页 面 ， 那 么 我 们 
吐 量 则 取决 于 网 站 用 户 使 用 网 站 


不 同 的 使 用 场景 对 生产 者 API 的 








统 里 ， 消 息 丢 失 或 消息 重复 是 不 允许 的 ， 可 以 接受 的 延迟 
我 们 希望 每 秒 钟 可 以 处 理 一 百 万 个 消息 。 

用 场景 。 在 这 个 场景 里 ， 人 允许 丢失 少量 的 消息 或 出 现 少量 
只 要 不 影响 用 户 体验 就 行 。 换 句 话说， 只 要 用 户 点 击 链接 
并 不 介意 消息 要 在 儿 秒 钟 之 后 才能 到 达 Kafka 服务 器 。 吞 
的 频 度 。 


使 用 和 配置 会 有 直接 的 影响 。 

















尽管 生产 者 API 使 用 起 来 很 简 利 
Kafka 发 送 消息 的 主要 步骤 。 





和 ， 但 消息 的 发 送 过 程 还 是 有 点 复杂 的 。 图 3-1 展示 了 向 








如 果 成 功 ， 
返回 元 数据 





ProducerRecord 
[Partition] 


-=== 上 


如 果 不 能 重 试 ， 
抛 出 异常 








Na Se ee ey he i et es 


Kafka Broker 








图 3-1， Kafka 生产 者 组 件 图 
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我 们 从 创建 一 个 ProducerRecord 对 象 开 始 ，ProducerRecord 对 象 需要 包含 目标 主题 和 要 发 
送 的 内 容 。 我 们 还 可 以 指定 键 或 分 区 。 在 发 送 ProducerRecord 对 象 时 ， 生 产 者 要 先 把 键 和 
值 对 象 序列 化 成 字 节 数组 ， 这 样 它 们 才能 够 在 网 络 上 传输 。 


接 下 来 ， 数 据 被 传 给 分 区 器 。 如 果 之 前 在 ProducerRecord 对 象 里 指定 了 分 区 ， 那 么 分 区 器 
就 不 会 再 做 任何 事情 ， 直 接 把 指定 的 分 区 返回 。 如 果 没 有 指定 分 区 ， 那 么 分 区 器 会 根据 
ProducerRecord 对 象 的 键 来 选择 一 个 分 区 。 选 好 分 区 以 后 ， 生 产 者 就 知道 该 往 哪个 主题 和 
分 区 发 送 这 条 记录 了 。 紧 接着 ， 这 条 记录 被 添加 到 一 个 记录 批 次 里 ， 这 个 批 次 里 的 所 有 消 
息 会 被 发 送 到 相同 的 主题 和 分 区 上 。 有 一 个 独立 的 线程 负责 把 这 些 记录 批 次 发 送 到 相应 的 
broker 上 。 


服务 器 在 收 到 这 些 消息 时 会 返回 一 个 响应 。 如 果 消 息 成 功 写 入 Kafka， 就 返回 一 个 
RecordMetaData 对 象 ， 它 包含 了 主题 和 分 区 信息 ， 以 及 记录 在 分 区 里 的 偏 移 量 。 如 果 写 入 
失败 ， 则 会 返回 一 个 错误 。 生 产 者 在 收 到 错误 之 后 会 尝试 重新 发 送 消 息 ， 几 次 之 后 如 果 还 
是 失败 ， 就 返回 错误 信息 。 


3.2 创建 Kafka 生 产 者 


要 往 Kafka 写 入 消息 ， 首 先 要 创建 一 个 生产 者 对 象 ， 并 设置 一 些 属性 。Kafka 生产 者 有 3 
bootstrap.servers 
该 属性 指定 broker 的 地 址 清单 ， 地 址 的 格式 为 host:port。 清 单 里 不 需要 包含 所 有 的 
broker 地 址 ， 生 产 者 会 从 给 定 的 broker 里 查找 到 其 他 broker 的 信息 。 不 过 建议 至 少 要 
提供 两 个 broker 的 信息 ， 一 旦 其 中 一 个 宕 机 ， 生 产 者 仍然 能 够 连接 到 集群 上 。 
key.serializer 
broker 希望 接收 到 的 消息 的 键 和 值 都 是 字 节 数组 。 生 产 者 接口 允许 使 用 参数 化 类 型 ， 
此 可 以 把 Java 对 象 作为 键 和 值 发 送 给 broker。 这 样 的 代码 具有 良好 的 可 读 性 ， 不 过 生 
产 者 需要 知道 如 何 把 这 些 Java 对 象 转换 成 字 市 数组 。key.serializer 必须 被 设置 为 一 
个 实现 了 org.apache.kafka.common.serialization.Serializer 接口 的 类 ， 生 产 者 会 使 
用 这 个 类 把 键 对 象 序列 化 成 字 节 数组 。Kafka 客户 端 默 认 提 供 了 ByteArraySerializer 
(这 个 只 做 很 少 的 事情 )、StringSerializer 和 IntegerSerializer， 因 此 ， 如 果 你 只 
使 用 常见 的 几 种 Java 对 象 类 型 ， 那 么 就 没 必要 实现 自己 的 序列 化 器 。 要 注意 ，key. 
serializer 是 必须 设置 的 ， 就 算 你 打算 只 发 送 值 内容 。 
value.serializer 
与 key.serializer 一 样 ，value.serializer 指定 的 类 会 将 值 序列 化 。 如 果 键 和 值 都 是 字 
符 串 ， 可 以 使 用 与 key.serializer 一 样 的 序列 化 器 。 如 果 键 是 整数 类 型 而 值 是 字符 串 ， 
那么 需要 使 用 不 同 的 序列 化 器 。 


下 面 的 代码 片段 演示 了 如 何 创 建 一 个 新 的 生产 者 ， 这 里 只 指定 了 必要 的 属性 ， 其 他 使 用 黑 
认 设 置 。 


private Properties kafkaprops = new Properties(); © 
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kafkaProps.put("bootstrap.servers", "broker1:9092,broker2:9092"); 


kafkaProps.put("key.serializer", 
"org.apache.kafka.common. serialization.StringSerializer"); @ 
kafkaProps.put("value.serializer", 
"org.apache.kafka.common.serialization.StringSerializer"); 


producer = new Kafkaproducer<String, String>(kafkaProps); © 


@ 新 建 一 个 Properties 对 象 。 
2 】 人 所 以 使 用 内 置 的 stringSerializer。 


旨 在 这 里 我 们 创建 了 一 
Properties 人 








个 新 的 生产 者 对 象 ， 并 为 键 和 值 设置 了 恰当 的 类 型 ， 


然后 把 


这 个 接口 很 简单 ， 通 过 配置 生产 者 的 不 同属 性 就 可 以 很 大 程度 地 控制 它 的 行为 。Kafka 的 
我 们 将 在 这 一 章 的 后 面部 分 介绍 其 中 几 个 比较 重要 的 参数 。 


实例 化 生产 者 对 象 后 ， 接 下 来 就 可 以 开始 发 送 消 息 了 。 发 送 消息 主要 有 以 下 3 种 方式 。 





文档 涵盖 了 所 有 的 配置 参数 ， 


发 送 并 忘记 (fire-and-forget) 
我 们 把 消息 发 送 给 服务 器 ， 


























但 并 不 关心 它 是 否 正常 到 达 。 大 多 数 情况 下 ， 消 息 会 





正常 到 


达 ， 因 为 Kafka 是 高 可 用 的 ， 而 且 生产 者 会 自动 尝试 重 发 。 不 过 ， 使 用 这 种 方式 有 时 候 





也 会 丢失 一 些 消息 。 
同步 发 送 


我 们 使 用 send() 方法 发 送 消息 ， 它 会 返回 一 个 Future 对 象 ， 调 用 get() 方法 进行 








就 可 以 知道 消息 是 否 发 送 成 功 。 


我 们 调用 send() 方法 ， 并 








指定 一 个 回调 函数 ， 服 务 器 在 返回 响应 时 调用 该 函数 。 





在 下 面 的 几 个 例子 中 ， 我 们 会 介绍 如 何 使 用 上 述 儿 种 方式 来 发 送 消 息 ， 以 及 如 何 处 











发 生 的 异常 情况 。 











等 待 ， 

















里 可 能 





本 章 的 所 有 例子 都 使 用 单线 程 ， 但 其 实生 产 者 是 可 以 使 用 多 线程 来 发 送 消息 的 。 刚 开始 的 
时 候 可 以 使 用 单个 消费 者 和 单个 线程 。 如 果 需 要 更 高 的 吞吐 量 ， 可 以 在 生产 者 数量 不 变 的 



































前 提 下 增加 线程 数量 。 如 果 这 样 做 还 不 够 ， 可 以 增加 生产 者 数量 。 








3.3 发 送 消息 到 Kafka 
最 简单 的 消息 发 送 方 式 如 下 所 示 。 


ProducerRecord<String, String> record = 
new ProducerRecord<>("CustomerCountry", "Precision Products", 


"France"); ©O 
try { 


producer .send(record); 多 


} catch (Exception e) { 


e.printStackTrace(); © 





@ 生产 者 的 send() 方 法 将 ProducerRecord 对 象 作为 参数 ， 所 以 我 们 要 先 创 建 一 个 
ProducerRecord 对 象 。ProducerRecord 有 多 个 构造 国 数 ， 稍 后 我 们 会 详细 讨论 。 这 里 使 
用 其 中 一 个 构造 函数 ， 它 需要 目标 主题 的 名 字 和 要 发 送 的 键 和 值 对 象 ， 它 们 都 是 字符 
串 。 键 和 值 对 象 的 类 型 必须 与 序列 化 器 和 生产 者 对 象 相 匹配 。 

@ 我 们 使 用 生产 者 的 send() 方法 发 送 ProducerRecord 对 象 。 从 生产 者 的 架构 图 里 可 以 看 
到 ， 消 息 先 是 被 放 进 缓冲 区 ， 然 后 使 用 单独 的 线程 发 送 到 服务 器 端 。send() 方法 会 返 

回 一 个 包含 RecordMetadata 的 Future 对 象 ， 不 过 因为 我 们 会 忽略 返回 值 ， 所 以 无 法 知 
道 消息 是 否 发 送 成 功 。 如 果 不 关心 发 送 结果 ， 那 么 可 以 使 用 这 种 发 送 方 式 。 比 如 ， 记 录 
Twitter 消息 日 志 ， 或 记录 不 太 重 要 的 应 用 程序 日 志 。 

@ 我 们 可 以 忽略 发 送 消 息 时 可 能 发 生 的 错误 或 在 服务 器 端 可 能 发 生 的 错误 ， 但 在 发 送 消 
息 之 前 ， 生 产 者 还 是 有 可 能 发 生 其 他 的 异常 。 这 些 异 常 有 可 能 是 SerializationException 
(说 明 序 列 化 消息 失败 )、BufferExhaustedException 或 TimeoutException (说 明 缓 冲 区 已 
满 )， 又 或 者 是 InterruptException 〈 说 明 发 送 线程 被 中 断 ) 。 


3.3.1 同步 发 送 消息 
最 简单 的 同步 发 送 消息 方式 如 下 所 示 。 


ProducerRecord<String, String> record = 
new ProducerRecord<>("CustomerCountry", "Precision Products", "France"); 


























try { 
producer .send(record).get(); © 
} catch (Exception e) { 
e.printStackTrace(); @ 
} 


@ 在 这 里 ，producer .send() 方法 先 返回 一 个 Future 对 象 ， 然 后 调用 Future 对 象 的 get() 
方法 等 待 Kafka 响应 。 如 果 服 务 器 返回 错误 ，get() 方法 会 抛 出 异常 。 如 果 没 有 发 生 错 
误 ， 我 们 会 得 到 一 个 RecordMetadata 对 象 ， 可 以 用 它 获 取消 息 的 偏 移 量 。 

@ 如 果 在 发 送 数 据 之 前 或 者 在 发 送 过 程 中 发 生 了 任何 错误 ， 比 如 broker 返回 了 一 个 不 允 
许 重 发 消息 的 异常 或 者 已 经 超过 了 重 发 的 次 数 ， 那 么 就 会 抛 出 异常 。 我 们 只 是 简单 地 把 
异常 信息 打印 出 来 。 

KafkaProducer 一 般 会 发 生 两 类 错误 。 其 中 一 类 是 可 重 试 错 误 ， 这 类 错误 可 以 通过 重 发 消息 

来 解决 。 比 如 对 于 连接 错误 ， 可 以 通过 再 次 建立 连接 来 解决 ,“ 无 主 (no leader)” 错 误 则 可 

以 通过 重新 为 分 区 选举 首领 来 解决 。KafkaProducer 可 以 被 配置 成 自动 重 试 ， 如 果 在 多 次 重 

试 后 仍 无 法 解决 问题 ， 应 用 程序 会 收 到 一 个 重 试 异常 。 另 一 类 错误 无 法 通过 重 试 解决 ， 比 如 

“消息 太 大 ”异常 。 对 于 这 类 错误 ，KafkaProducer 不 会 进行 任何 重 试 ， 直 接 抛 出 异常 。 


3.3.2 ”异步 发 送 消息 

假设 消息 在 应 用 程序 和 Kafka 集群 之 间 一 个 来 回 需 要 10ms。 如 果 在 发 送 完 每 个 消息 后 都 
等 待 回应 ， 那 么 发 送 100 个 消息 需要 1 秒 。 但 如 果 只 发 送 消 息 而 不 等 待 响应 ， 那 么 发 送 
100 个 消息 所 需要 的 时 间 会 少 很 多 。 大 多 数 时 候 ， 我 们 并 不 需要 等 待 响应 尽管 Kafka 
会 把 目标 主题 、 分 区 信息 和 消息 的 偏 移 量 发 送 回来 ， 但 对 于 发 送 端 的 应 用 程序 来 说 不 是 必 
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需 的 。 不 过 在 遇 到 消息 发 送 失 败 时 ， 我 们 需要 抛 出 异常 、 记 录 错 误 日 志 ， 或 者 把 消息 写 人 
“错误 消息 ”文件 以 便 日 后 分 析 。 


为 了 在 异步 发 送 消 息 的 同时 能 够 对 异常 情况 进行 处 理 ， 生 产 者 提供 了 回调 支持 。 下 面 是 使 
用 回调 的 一 个 例子 。 


private class DemoproducerCallback implements Callback {©O 
@Override 
public void onCompletion(RecordMetadata recordMetadata, Exception e) { 
if (e != null) { 
e.printStackTrace(); © 
} 























} 
} 


ProducerRecord<String, String> record = 
new ProducerRecord<>("CustomerCountry", "Biomedical Materials", "USA"); © 
producer .send(record, new DemopProducerCallback()); @ 


@ 为 了 使 用 回调 ， 需 要 一 个 实现 了 org.apache.kafka.clients.producer.Callback 接口 的 
类 ， 这 个 接口 只 有 一 个 onCompletion 方法 。 

@ 如 果 Kafka 返回 一 个 错误 ，onCompletion 方法 会 抛 出 一 个 非 空 (non null) 异常 。 这 里 
我 们 只 是 简单 地 把 它 打印 出 来 ， 但 是 在 生产 环境 应 该 有 更 好 的 处 理 方式 。 

@ 记录 与 之 前 的 一 样 。 

@ 在 发 送 消息 时 传 进去 一 个 回调 对 象 。 


3.4 生产 者 的 配置 


到 目前 为 止 ， 我 们 只 介绍 了 生产 者 的 几 个 必要 配置 参数 
列 化 器 。 


生产 者 还 有 很 多 可 配置 的 参数 ， 在 Kafka 文档 里 都 有 说 明 ， 它 们 大 部 分 都 有 合理 的 默认 
值 ， 所 以 没有 必要 去 修改 它们 。 不 过 有 儿 个 参数 在 内 存 使 用 、 性 能 和 可 靠 性 方面 对 生产 者 
影响 比较 大 ， 接 下 来 我 们 会 一 一 说 明 。 

1. acks 


acks 参数 指定 了 必须 要 有 多 少 个 分 区 副本 收 到 消息 ， 生 产 者 才 会 认为 消息 写 入 是 成 功 的 。 
这 个 参数 对 消息 丢失 的 可 能 性 有 重要 影响 。 该 参数 有 如 下 选项 。 


。 如 果 acks=6， 生 产 者 在 成 功 写 和 人 消息 之 前 不 会 等 待 任何 来 自 服务 器 的 响应 。 也 就 是 说 ， 
如 果 当 中 出 现 了 问题 ， 导 致 服务 器 设 有 收 到 消息 ， 那 么 生产 者 就 无 从 得 知 ， 消 息 也 就 丢 
失 了 。 不 过 ， 因 为 生产 者 不 需要 等 待 服务 器 的 响应 ， 所 以 它 可 以 以 网 络 能 够 支持 的 最 大 

速度 发 送 消息 ， 从 而 达到 很 高 的 否 吐 量 。 

。 如 果 acks=1， 只 要 集群 的 首领 节点 收 到 消息 ， 生 产 者 就 会 收 到 一 个 来 自 服务 器 的 成 功 
响应 。 如 果 消 息 无 法 到 达 首 领 节 点 (比如 首领 石 点 月 涡 ， 新 的 首领 还 没有 被 选举 出 来 )， 
生产 者 会 收 到 一 个 错误 响应 ， 为 了 避免 数据 丢失 ， 生 产 者 会 重 发 消息 。 不 过 ， 如 果 一 个 
没有 收 到 消息 的 节点 成 为 新 首领 ， 消 息 还 是 会 丢失 。 这 个 时 候 的 否 吐 量 取 决 于 使 用 的 是 
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同步 发 送 还 是 异步 发 送 。 如 果 让 发 送 客 户 端 等 待 服务 器 的 响应 (通过 调用 Future 对 象 
的 get() 方法 ) ， 显 然 会 增加 延迟 〈 在 网 络 上 传输 一 个 来 回 的 延迟 ) 。 如 果 客 户 端 使 用 回 
调 ， 延 迟 问 题 就 可 以 得 到 缓解 ， 不 过 吞吐 量 还 是 会 受 发 送 中 消息 数量 的 限制 〈 比 如 ， 生 
产 者 在 收 到 服务 器 响应 之 前 可 以 发 送 多 少 个 消息 )。 

。 如 果 acks=aLL， 只 有 当 所 有 参与 复制 的 节点 全 部 收 到 消息 时 ， 生 产 者 才 会 收 到 一 个 来 自 
服务 器 的 成 功 响 应 。 这 种 模式 是 最 安全 的 ， 它 可 以 保证 不 止 一 个 服务 器 收 到 消息 ， 就 算 
有 服务 器 发 生 月 溃 ， 整 个 集群 仍然 可 以 运行 (第 5 章 将 讨论 更 多 的 细节 )。 不 过 ， 它 的 
延迟 比 acks=1 时 更 高 ， 因 为 我 们 要 等 待 不 只 一 个 服务 器 市 点 接收 消息 。 


2.buffer.memory 


该 参数 用 来 设置 生产 者 内 存 缓冲 区 的 大 小 ， 生 产 者 用 它 缓冲 要 发 送 到 服务 器 的 消息 。 如 果 
应 用 程序 发 送 消 息 的 速度 超过 发 送 到 服务 器 的 速度 ， 会 导致 生产 者 空间 不 足 。 这 个 时 候 ， 
send() 方法 调用 要 么 被 阻 寨 ,， 要 么 抛 出 异常 ， 取 决 于 如 何 设置 block.on.buffer.full 参数 
(在 0.9.0.0 版 本 里 被 替换 成 了 max.bLock.ms， 表 示 在 抛 出 异常 之 前 可 以 阻塞 一 段 时 间 ) 。 


3. compression.type 


默认 情况 下 ， 消 息 发 送 时 不 会 被 压缩 。 该 参数 可 以 设置 为 snappy、gzip 或 tz4， 它 指定 了 
消息 被 发 送 给 broker 之 前 使 用 哪 一 种 压缩 算法 进行 压缩 。snappy 压缩 算法 由 Google 发 明 ， 
它 占用 较 少 的 CPU， 却 能 提供 较 好 的 性 能 和 相当 可 观 的 压缩 比 ， 如 果 比 较 关注 性 能 和 网 
络 带 宽 ， 可 以 使 用 这 种 算法 。gzip 压缩 算法 一 般 会 占用 较 多 的 CPU， 但 会 提供 更 高 的 压缩 
比 ， 所 以 如 果 网 络 带宽 比较 有 限 ， 可 以 使 用 这 种 算法 。 使 用 压缩 可 以 降低 网 络 传输 开销 和 
存储 开销 ， 而 这 往往 是 向 Kafka 发 送 消息 的 瓶颈 所 在 。 


4. retries 


生产 者 从 服务 器 收 到 的 错误 有 可 能 是 临时 性 的 错误 (比如 分 区 找 不 到 首领 )。 在 这 种 情况 
下 ，retries 参数 的 值 决 定 了 生产 者 可 以 重 发 消息 的 次 数 ， 如 果 达 到 这 个 次 数 ， 生 产 者 会 
放弃 重 试 并 返回 错误 。 黑 认 情 况 下 ， 生 产 者 会 在 每 次 重 试 之 间 等 待 100ms， 不 过 可 以 通过 
retry.backoff.ms 参数 来 改变 这 个 时 间 间 隔 。 建 议 在 设置 重 试 次 数 和 重 试 时 间 间 隔 之 前 ， 
先 测试 一 下 恢复 一 个 崩溃 节点 需要 多 少时 间 (比如 所 有 分 区 选举 出 首领 需要 多 长 时 间 )， 
让 总 的 重 试 时 间 比 Kafka 集群 从 崩溃 中 恢复 的 时 间 长 ， 否 则 生产 者 会 过 早 地 放弃 重 试 。 不 
过 有 些 错误 不 是 临时 性 错误 ， 没 办 法 通过 重 试 来 解决 (比如 “消息 太 大 ”错误 )。 一 般 情 
况 下 ， 因 为 生产 者 会 自动 进行 重 试 ， 所 以 就 疫 必要 在 代码 逻辑 里 处 理 那 些 可 重 试 的 错误 。 
你 只 需要 处 理 那 些 不 可 重 试 的 错误 或 重 试 次 数 超出 上 限 的 情况 。 


5. batch.size 


当 有 多 个 消息 需要 被 发 送 到 同一 个 分 区 时 ， 生 产 者 会 把 它们 放 在 同一 个 批 次 里 。 该 参数 指 
定 了 一 个 批 次 可 以 使 用 的 内 存 大 小 ， 按 照 字 节 数 计算 (而 不 是 消息 个 数 )。 当 批 次 被 填 满 ， 
批 次 里 的 所 有 消息 会 被 发 送出 去 。 不 过 生产 者 并 不 一 定 都 会 等 到 批 次 被 填 满 才 发 送 ， 半 满 
的 批 次 ， 甚 至 只 包含 一 个 消息 的 批 次 也 有 可 能 被 发 送 。 所 以 就 算 把 批 次 大 小 设置 得 很 大 ， 
也 不 会 造成 延迟 ， 只 是 会 占用 更 多 的 内 存 而 已 。 但 如 果 设 置 得 太 小 ， 因 为 生产 者 需要 更 频 
繁 地 发 送 消息 ， 会 增加 一 些 额 外 的 开销 。 
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6. linger.ms 


该 参数 指定 了 生产 者 在 发 送 批 次 之 前 等 待 更 多 消息 加 入 批 次 的 时 间 。KafkaProducer 会 在 
批 次 填 满 或 Linger .ms 达到 上 限时 把 批 次 发 送出 去 。 默 认 情 况 下 ， 只 要 有 可 用 的 线程 ， 生 
产 者 就 会 把 消息 发 送出 去 ， 就 算 批 次 里 只 有 一 个 消息 。 把 Linger.ms 设置 成 比 0 大 的 数 ， 
让 生产 者 在 发 送 批 次 之 前 等 待 一 会 儿 ， 使 更 多 的 消息 加 入 到 这 个 批 次 。 虽 然 这 样 会 增加 延 
迟 ， 但 也 会 提升 吞吐 量 (因为 一 次 性 发 送 更 多 的 消息 ， 每 个 消息 的 开销 就 变 小 了 )。 

7. client.id 


该 参数 可 以 是 任意 的 字符 串 ， 服 务 器 会 用 它 来 识别 消息 的 来 源 ， 还 可 以 用 在 日 志和 配额 指 
标 里 。 


8. max.in.flight.requests.per.connection 


该 参数 指定 了 生产 者 在 收 到 服务 器 响应 之 前 可 以 发 送 多 少 个 消息 。 它 的 值 越 高 ， 就 会 占用 
越 多 的 内 存 ， 不 过 也 会 提升 吞吐 量 。 把 它 设 为 1 可 以 保证 消息 是 按照 发 送 的 顺序 写 入 服务 
器 的 ， 即 使 发 生 了 重 试 。 


9. timeout.ms、request.timeout.ms 和 metadata.fetch.timeout.ms 


request.timeout.ms 指定 了 生产 者 在 发 送 数据 时 等 待 服务 器 返回 响应 的 时 间 ，metadata. 
fetch.timeout.ms 指定 了 生产 者 在 获取 元 数据 (比如 目标 分 区 的 首领 是 谁 ) 时 等 待 服务 器 
返回 响应 的 时 间 。 如 果 等 待 响 应 超时 ， 那 么 生产 者 要 么 重 试 发 送 数 据 ， 要 么 返回 一 个 错误 
( 抛 出 异常 或 执行 回调 ) 。timeout .ms 指定 了 broker 等 待 同步 副本 返回 消息 确认 的 时 间 ， 与 
asks 的 配置 相 匹 配 一 一 如 果 在 指定 时 间 内 没有 收 到 同步 副本 的 确认 ， 那 么 broker 就 会 返回 
一 个 错误 。 


10. max.block.ms 


该 参数 指定 了 在 调用 send() 方法 或 使 用 partitionsFor() 方法 获取 元 数据 时 生产 者 的 阻塞 
时 间 。 当 生产 者 的 发 送 缓冲 区 已 满 ， 或 者 没有 可 用 的 元 数据 时 ， 这 些 方法 就 会 阻塞 。 在 阻 
塞 时 间 达 到 max.block.ms 时 ， 生 产 者 会 抛 出 超时 异常 。 

11. max.request.size 

该 参数 用 于 控制 生产 者 发 送 的 请 求 大 小 。 它 可 以 指 能 发 送 的 单个 消息 的 最 大 值 ， 也 可 以 指 
单个 请 求 里 所 有 消息 总 的 大 小 。 例 如 ， 假 设 这 个 值 为 1MB， 那 么 可 以 发 送 的 单个 最 大 消 
息 为 1MB ， 或 者 生产 者 可 以 在 单个 请 求 里 发 送 一 个 批 次 ， 该 批 次 包含 了 1000 个 消息 ， 每 
个 消息 大 小 为 IKB。 另 外 ，broker 对 可 接收 的 消息 最 大 值 也 有 自己 的 限制 (message.max. 
bytes) ， 所 以 两 边 的 配置 最 好 可 以 匹配 ， 避 免 生 产 者 发 送 的 消息 被 broker 拒绝 。 


12. receive.buffer.bytes 和 send.buffer.bytes 

这 两 个 参数 分 别 指定 了 TCP socket 接收 和 发 送 数据 包 的 缓冲 区 大 小 。 如 果 它 们 被 设 为 -1， 
就 使 用 操作 系统 的 默认 值 。 如 果 生 产 者 或 消费 者 与 broker 处 于 不 同 的 数据 中 心 ， 那 么 可 以 
适当 增 大 这 些 值 ， 因 为 跨 数据 中 心 的 网 络 一 般 都 有 比较 高 的 延迟 和 比较 低 的 带宽 。 
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序列 化 器 


顺序 保证 


Kafka 可 以 保证 同一 个 分 区 里 的 消息 是 有 序 的 。 也 就 是 说 ， 如 果 生 产 者 按照 
一 定 的 顺序 发 送 消 息 ，broker 就 会 按照 这 个 顺序 把 它们 写 入 分 区 ， 消 费 者 也 
会 按照 同样 的 顺序 读 取 它 们 。 在 某 些 情况 下 ， 顺 序 是 非常 重要 的 。 例 如 ， 往 
一 个 账户 存 入 100 元 再 取出 来 ， 这 个 与 先 取 钱 再 存 钱 是 截然 不 同 的 ! 不 过 ， 
有 些 场景 对 顺序 不 是 很 敏感 。 

如 果 把 retries 设 为 非 零 整 数 ， 同 时 把 max.iin.flight.requests .per .connection 
设 为 比 1 大 的 数 ， 那 么 ， 如 果 第 一 个 批 次 消息 写 入 失败 ， 而 第 二 个 批 次 写 入 
成 功 ，broker 会 重 试 写 入 第 一 个 批 次 。 如 果 此 时 第 一 个 批 次 也 写 入 成 功 ， 那 
么 两 个 批 次 的 顺序 就 反 过 来 了 。 

一 般 来 说 ， 如 果 某 些 场景 要 求 消息 是 有 序 的 ， 那 么 消息 是 否 写 入 成 功 也 是 
很 关键 的 ， 所 以 不 建议 把 retries 设 为 0。 可 以 把 max.iin.flight.requests. 
per.connection 设 为 1， 这 样 在 生产 者 尝试 发 送 第 一 批 消息 时 ， 就 不 会 有 其 
他 的 消息 发 送 给 broker。 不 过 这 样 会 严重 影响 生产 者 的 吞吐 量 ， 所 以 只 有 在 
对 消息 的 顺序 有 严格 要 求 的 情况 下 才能 这 么 做 。 


























我 们 已 经 在 之 前 的 例子 里 看 到 ， 创 建 一 个 生产 者 对 象 必须 指定 序列 化 器 。 我 们 已 经 知道 如 
何 使 用 默认 的 字符 串 序列 化 器 ，Kafka 还 提供 了 整 型 和 字 市 数组 序列 化 器 ， 不 过 它们 还 不 
足以 满足 大 部 分 场景 的 需求 。 到 最 后 ， 我 们 需要 序列 化 的 记录 类 型 会 越 来 越 多 。 


接 下 来 演示 如 何 开 发 自己 的 序列 化 器 ， 并 介绍 Avro 序列 化 器 作为 推荐 的 备 选 方案 。 


.ozl 























自 定义 序列 化 器 


如 果 发 送 到 Kafka 的 对 象 不 是 简单 的 字符 串 或 整 型 ， 那 么 可 以 使 用 序列 化 框架 来 创建 消息 
记录 ， 如 Avro、Thrift 或 Protobuf， 或 者 使 用 自 定义 序列 化 器 。 我 们 强烈 建议 使 用 通用 的 


序列 化 














。 不 过 ， 为 了 了 解 序列 化 器 的 工作 原理 ， 也 为 了 说 明 为 什么 要 使 用 序列 化 杠 


架 ， 让 我 们 一 起 来 看 看 如 何 自 定 义 一 个 序列 化 器 。 
假设 你 创建 了 一 个 简单 的 类 来 表示 一 个 客户 : 


public class Customer { 


private int customerID; 
private String customerName; 


public Customer(int ID, String name) { 
this.customerID = ID; 
this.customerName = name; 


} 


public int getID() { 


H 
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return customerID; 


} 


public String getName() { 
return customerName; 
} 
} 





现在 我 们 要 为 这 个 类 创建 一 个 序列 化 器 ， 它 看 起 来 可 能 是 这 样 的 : 


import org.apache.kafka.common.errors.SerializationException; 


import java.nio.ByteBuffer; 
import java.util.Map; 


public class CustomerSerializer implements Serializer<Customer> { 


@Override 
public void configure(Map configs, boolean isKey) { 
// 不 做 任何 配置 
} 





@Override 

/** 

Customer 对 象 被 序列 化 成 : 

表示 customerID 的 4 字 节 整数 

表示 customerName 长 度 的 4 字 节 整数 (如 果 customerName 为 空 , 则 长 度 为 0) 
表示 customerName 的 N 个 字 节 

*] 

public byte[] serialize(String topic, Customer data) { 

try { 





byte[] serializedName; 
int stringSize; 
if (data == null) 
return null; 
else { 
if (data.getName() != nuLL) { 
serializedName = data.getName().getBytes("UTF-8"); 
stringSize = serializedName.length; 
} elsef{ 
serializedName = new byte[0]; 
stringSize = 0; 


4 


ByteBuffer buffer = ByteBuffer.allocate(4 + 4 + stringSize); 
buffer .putInt(data.getID()); 

buffer .putInt(stringSize); 

buffer .put(serializedName); 


return buffer.array(); 
} catch (Exception e) { 
throw new SerializationException("Error when serializing Customer to 
byte[] " + e); 





@Override 
public void close() { 
// 不 需要 关闭 任何 东西 
} 
} 


只 要 使 用 这 个 CustomerSerializer， 就 可 以 把 消息 记录 定义 成 ProducerRecord<String，, 
Customer>， 并 且 可 以 直接 把 Customer 对 象 传 给 生产 者 。 这 个 例子 很 简单 ， 不 过 代码 看 起 
来 太 脆弱 了 一 一 如 果 我 们 有 多 种 类 型 的 消费 者 ， 可 能 需要 把 customerID 字段 变 成 长 整 型 ， 
或 者 为 Customer 添加 startDate 字段 ， 这 样 就 会 出 现 新 旧 消 息 的 兼容 性 问题 。 在 不 同 版 
本 的 序列 化 器 和 反 序 列 化 器 之 间 调 试 兼容 性 问题 着 实 是 个 挑战 一 一 你 需要 比较 原始 的 字 贡 
数组 。 更 糟糕 的 是 ， 如 果 同 一 个 公司 的 不 同 团队 都 需要 往 Kafka 写 入 Customer 数据 ， 那 
么 他 们 就 需要 使 用 相同 的 序列 化 器 ， 如 果 序 列 化 器 发 生 改 动 ， 他 们 儿 乎 要 在 同一 时 间 修 改 
代码 。 


基于 以 上 几 点 原因 ， 我 们 不 建议 使 用 自 定 义 序 列 化 器 ， 而 是 使 用 已 有 的 序列 化 器 和 反 序 列 
化 器 ， 比 如 JSON、Avro、Thrift 或 Protobuf。 下 面 我 们 将 会 介绍 Avro， 然 后 演示 如 何 序列 
化 Avro 记录 并 发 送 给 Kafka。 


3.5.2 ”使 用 Avro 序列 化 

Apache Avro (以 下 简称 Avro) 是 一 种 与 编程 语言 无 关 的 序列 化 格式 。Doug Cutting 创建 了 
这 个 项 目 ， 目 的 是 提供 一 种 共享 数据 文件 的 方式 。 

Avro 数据 通过 与 语言 无 关 的 schema 来 定义 。schema 通过 JSON 来 描述 ， 数 据 被 序列 化 
成 二 进 制 文件 或 JSON 文件 ， 不 过 一 般 会 使 用 二 进 制 文件 。Avro 在 读 写 文件 时 需要 用 到 
schema，schema 一 般 会 被 内 租 在 数据 文件 里 。 

Avro 有 一 个 很 有 意思 的 特性 是 ， 当 负责 写 消息 的 应 用 程序 使 用 了 新 的 schema， 负 责 读 
消息 的 应 用 程序 可 以 继续 处 理 消息 而 无 需 做 任何 改动 ， 这 个 特性 使 得 它 特别 适合 用 在 像 
Kafka 这 样 的 消息 系统 上 。 


假设 最 初 的 schema 是 这 样 的 : 











































































































{"namespace": "customerManagement.avro", 
"type": "record", 
"name": "Customer", 
"fields": [ 
{"name": "id", "type": "int"}, 
{"name": "name", "type": "string"}, 


{"name": "faxNumber", "type": ["null", "string"], "default": "null"} @ 
] 
} 


@ id 和 nanme 字段 是 必需 的 ，faxNumber 是 可 选 的， 默认 为 null。 


假设 我 们 已 经 使 用 了 这 个 schema 儿 个 月 的 时 间 ， 并 用 它 生成 了 儿 个 太 字 节 的 数据 。 现 在 ， 
我 们 决定 在 新 版 本 里 做 一 些 修改 。 因 为 在 21 世纪 不 再 需要 faxNumber 字段 ， 需 要 用 email 
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字段 来 代替 它 。 


新 的 schema 如 下 : 
{"namespace": "customerManagement .avro" ， 
"type": "record " ， 
"Name": "Customer", 
"fields": [ 
{"name": "id", "type": "int"}, 
{"name": "name", "type": "string"}, 
{"name": "email", "type": ["null", "string"], "default": "null"} 
] 
} 


更 新 到 新 版 的 schema 后 ， 旧 记录 仍然 包含 faxNumber 字段 ， 而 新 记录 则 包含 email 字段 。 
部 分 负责 读 取 数据 的 应 用 程序 进行 了 升级 ， 那 么 它们 是 如 何 处 理 这 些 变 化 的 呢 ? 


在 应 用 程序 升级 之 前 ， 它 们 会 调用 类 似 getName()、getId() 和 getFaxNumber() 这 样 的 方 
法 。 如 果 碰 到 使 用 新 schema 构建 的 消息 ，getName() 和 getId() 方法 仍然 能 够 正常 返回 ， 
但 getFaxNumber() 方法 会 返回 null， 因 为 消息 里 不 包含 传真 号 码 。 


在 应 用 程序 升级 之 后 ，getEmail() 方法 取代 了 getFaxNumber() 方法 。 如 果 磁 到 一 个 使 用 旧 
schema 构建 的 消息 ， 那 么 getEmail() 方法 会 返回 null， 因 为 旧 消 息 不 包含 邮件 地 址 。 


现在 可 以 看 出 使 用 Avro 的 好 处 了 : 我 们 修改 了 消息 的 schema， 但 并 没有 更 新 所 有 人 负责 读 
取 数 据 的 应 用 程序 ， 而 这 样 仍然 不 会 出 现 异常 或 阻 断 性 错误 ， 也 不 需要 对 现 有 数据 进行 
幅 更 新 。 

不 过 这 里 有 以 下 两 个 需要 注意 的 地 方 。 


。 用 于 写 入 数据 和 读 取 数据 的 schema 必须 是 相互 兼容 的 。Avro 文档 提 到 了 一 些 兼 容 性 
原则 。 

。 反 序 列 化 器 需要 用 到 用 于 写 入 数据 的 schema， 即 使 它 可 能 与 用 于 读 取 数据 的 schema 不 
一 样 。Avro 数据 文件 里 就 包含 了 用 于 写 入 数据 的 schema， 不 过 在 Kafka 里 有 一 种 更 好 
的 处 理 方式 ， 下 一 小 市 我 们 会 介绍 它 。 


3.5.3 ”在 Kafka 里 使 用 Avro 


Avro 的 数据 文件 里 包含 了 整个 shema， 不 过 这 样 的 开销 是 可 接受 的 。 但 是 如 果 在 每 条 
Kafka 记录 里 都 杠 入 schema， 会 让 记录 的 大 小 成 倍 地 增加 。 不 过 不 管 怎 样 ， 在 读 取 记录 
时 仍然 需要 用 到 整个 schema， 所 以 要 先 找到 schema。 我 们 遵循 通用 的 结构 模式 并 使 用 
“schema 注册 表 ” 来 达到 目的 。schema 注册 表 并 不 属于 Kafka， 现 在 已 经 有 一 些 开 源 的 
schema 广 册 表 实现 。 在 这 个 例子 里 ， 我 们 使 用 的 是 Confluent Schema Registry。 该 注册 表 
的 代码 可 以 在 GitHub 上 找到 ， 你 也 可 以 把 它 作 为 Confluent 平台 的 一 部 分 进行 安装 。 如 果 
你 决定 使 用 这 个 注册 表 ， 可 以 参考 它 的 文档 。 

我 们 把 所 有 写 入 数据 需要 用 到 的 schema 保存 在 注册 表 里 ， 然 后 在 记录 里 引用 schema 的 标 
识 符 。 负 责 读 取 数 据 的 应 用 程序 使 用 标识 符 从 注册 表 里 拉 取 schema 来 反 序列 化 记录 。 序 
列 化 器 和 反 序 列 化 器 分 别 负责 处 理 schema 的 注册 和 拉 取 。Avro 序列 化 器 的 使 用 方法 与 其 
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他 序列 化 器 是 一 样 的 。 













消费 者 


Broker 


当前 schema 版 本 














图 3-2: Avro 记录 的 序列 化 和 反 序 列 化 流程 图 





下 面 的 例子 演示 了 如 何 把 生成 的 Avro 对 象 发 送 到 Kafka (关于 如 何 使 用 Avro 生成 代码 请 











参考 Avro 文档 ) : 


Properties props = new Properties(); 





props.put("bootstrap.servers", "localhost:9092"); 
props.put("key.serializer", 
"io.confluent.kafka.serializers.KafkaAvroSerializer"); 
props.put("value.serializer", 
"io.confluent.kafka.serializers.KafkaAvroserializer"); © 
props.put("schema.registry.url", schemaUrl); © 


String topic = "customerContacts"; 


Producer<String, Customer> producer = new Kafkaproducer<String， 
Customer>(props); © 





// 不 断 生 成 事件 ,直到 有 人 按 下 Ctrl+C 组 合 键 
while (true) { 
Customer customer = CustomerGenerator.getNext(); 
System.out.println("Generated customer "+ 
customer. toString()); 
ProducerRecord<String, Customer> record = 
new ProducerRecord<>(topic, customer.getId(), cus- 











toner); @ 
producer .send(record); © 
} 





@ 使 用 Avro 的 KafkaAvroSeriaLizer 来 序列 化 对 象 。 注 意 ，AvroSerializer 也 可 以 处 到 


语 ， 这 就 是 我 们 以 后 可 以 使 用 字符 串 作为 记录 键 、 使 用 客户 对 象 作为 值 的 原因 。 
名 schema.registry.url 是 一 个 新 的 参数 ， 指 向 schema 的 存储 位 置 。 
全 Customer 是 生成 的 对 象 。 我 们 会 告诉 生产 者 Customer 对 象 就 是 记录 的 值 。 


Ba 























[IT 
沁 





@ 实例 化 一 个 ProducerRecord 对 象 ， 并 指定 Customer 为 值 的 类 型 ， 然 后 再 传 给 它 一 个 











Customer 对 象 。 
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加 把 Customer 对 象 作 为 记录 发 送出 去 ，KafkaAvroSerialLizer 会 处 理 剩 下 的 事情 。 


如 果 你 选择 使 用 一 般 的 Avro 对 象 而 非 生成 的 Avro 对 象 该 怎么 办 ? 不 用 担心 ， 这 个 时 候 你 
只 需 提供 schema 就 可 以 了 : 


Properties props = new Properties(); 
props.put("bootstrap.servers", "localhost:9092"); 
props.put("key.serializer", 
"io.confluent.kafka.serializers.KafkaAvroSerializer"); © 
props.put("value.serializer", 
"io.confluent.kafka.serializers.KafkaAvroSerializer"); 
props.put("schema.registry.url", url); © 





String schemaString = "{\"namespace\": \"customerManagement.avro\", 


\"type\": \'"'record\", "+© 
"\"name\": \"Customer\"," + 
"\"fields\": [" + 
"{\"name\": \"id\", \"type\": \"int\"}," + 
"{\"name\": \"name\", \"type\": \"string\"}," + 
"{\"name\": \"email\", \"type\": [\"null\",\"string 
\"], \"default\":\"null\" }" + 
"1]}"; 


Producer<String, GenericRecord> producer = 
new KafkaProducer<String, GenericRecord>(props); @ 


Schema.Parser parser = new Schema.Parser(); 
Schema schema = parser.parse(schemaString); 


for (int nCustomers = 0; nCustomers < customers; NnCustomers++) { 
String name = "exampleCustomer" + nCustomers; 
String email = "example" + nCustomers + "@example.com"; 


GenericRecord customer = new GenericData.Record(schema); © 
customer .put("id", nCustomers); 

customer .put("name", name); 

customer .put("email", email); 


ProducerRecord<String, GenericRecord> data = 
new ProducerRecord<String, 
GenericRecord>("customerContacts", 
Name, customer); 
producer .send(data); 


@ 仍然 使 用 同样 的 KafkaAvroSerializer。 

@ 提供 同样 的 schema 注册 表 URI。 

@ 这 里 需要 提供 Avro schema， 因 为 我 们 没有 使 用 Avro 生成 的 对 象 。 

@@ 对 象 类 型 是 Avro GenericRecord， ee i de 

加 ProducerRecord 的 值 就 是 一 个 GenericRecord 对 象 ， 它 包含 了 schema 和 数据 。 序 列 化 器 
知道 如 何 从 记录 里 获取 schema， 把 它 保 存 到 注册 表 里 ， 并 用 站 











3.6 分 区 


在 之 前 的 例子 里 ，ProducerRecord 对 象 包含 了 目标 主题 、 键 和 值 。Kafka 的 消息 是 一 个 个 
键 值 对 ，ProducerRecord 对 象 可 以 只 包含 目标 主题 和 值 ， 键 可 以 设置 为 默认 的 null, 不 
过 大 多 数 应 用 程序 会 用 到 键 。 键 有 两 个 用 途 : 可 以 作为 消息 的 附加 信息 ， 也 可 以 用 来 
决定 消息 该 被 写 到 主题 的 哪个 分 区 。 拥 有 相同 键 的 消息 将 被 写 到 同一 个 分 区 。 也 就 是 
说 ， 如 果 一 个 进程 只 从 一 个 主题 的 分 区 读 取 数据 (第 4 章 会 介绍 更 多 细节 )， 那 么 具有 相 
同 键 的 所 有 记录 都 会 被 该 进程 读 取 。 要 创建 一 个 包含 键 值 的 记录 ， 只 需 像 下 面 这 样 创建 
ProducerRecord 对 象 : 






































ProducerRecord<Integer, String> record = 
new ProducerRecord<>("CustomerCountry", "Laboratory Equipment", "USA"); 


如 有 果 要 创建 键 为 nutL 的 消息 ， 不 指定 键 就 可 以 了 : 


ProducerRecord<Integer, String> record = 
new ProducerRecord<>("CustomerCountry", "USA"); ©@ 


@ 这 里 的 键 被 设 为 null。 


如 有 果 键 值 为 nutL， 并 且 使 用 了 默认 的 分 区 器 ， 那 么 记录 将 被 随机 地 发 送 到 主题 内 各 个 可 用 
的 分 区 上 。 分 区 器 使 用 轮 询 (Round Robin) 算法 将 消息 均衡 地 分 布 到 各 个 分 区 上 。 


如 果 键 不 为 空 ， 并 且 使 用 了 默认 的 分 区 器 ， 那 么 Kafka 会 对 键 进行 散 列 (使 用 Kafka 自己 
的 散 列 算法 ， 即 使 升级 Java 版 本 ， 散 列 值 也 不 会 发 生变 化 )， 然 后 根据 散 列 值 把 消息 映射 
到 特定 的 分 区 上 。 这 里 的 关键 之 处 在 于 ， 同 一 个 键 总 是 被 映射 到 同一 个 分 区 上 ， 所 以 在 进 
行 映射 时 ， 我 们 会 使 用 主题 所 有 的 分 区 ， 而 不 仅仅 是 可 用 的 分 区 。 这 也 意味 着 ， 如 果 写 入 
数据 的 分 区 是 不 可 用 的 ， 那 么 就 会 发 生 错 误 。 但 这 种 情况 很 少 发 生 。 我 们 将 在 第 6 章 讨论 
Kafka 的 复制 功能 和 可 用 性 。 
只 有 在 不 改变 主题 分 区 数量 的 情况 下 ， 键 与 分 区 之 间 的 映射 才能 保持 不 变 。 举 个 例子 ， 在 
分 区 数量 保持 不 变 的 情况 下 ， 可 以 保证 用 户 045189 的 记录 总 是 被 写 到 分 区 34。 在 从 分 
区 读 取 数 据 时 ， 可 以 进行 各 种 优化 。 不 过 ， 一旦 主题 增加 了 新 的 分 区 ， 这 些 就 无 法 保证 
了 一 一 旧 数 据 仍 然 留 在 分 区 34， 但 新 的 记录 可 能 被 写 到 其 他 分 区 上 。 如 果 要 使 用 键 来 映射 
分 区 ， 那 么 最 好 在 创建 主题 的 时 候 就 把 分 区 规划 好 (第 2 章 介绍 了 如 何 确定 合适 的 分 区 数 
量 )， 而 且 永 远 不 要 增加 新 分 区 。 


实现 自 定义 分 区 策略 

我 们 已 经 讨论 了 默认 分 区 器 的 特点 ， 它 是 使 用 次 数 最 多 的 分 区 器 。 不 过 ， 除 了 散 列 分 区 之 
外 ， 有 时 候 也 需要 对 数据 进行 不 一 样 的 分 区 。 假 设 你 是 一 个 B2B 供应 商 ， 你 有 一 个 大 客 
户 ， 它 是 手持 设备 Banana 的 制造 商 。Banana 占据 了 你 整体 业务 10% 的 份额 。 如 果 使 用 默 
认 的 散 列 分 区 算法 ，Banana 的 账号 记录 将 和 其 他 账号 记录 一 起 被 分 配给 相同 的 分 区 ， 导 致 
这 个 分 区 比 其 他 分 区 要 大 一 些 。 服 务 器 可 能 因此 出 现存 储 空间 不 足 、 处 理 缓慢 等 问题 。 我 
们 需要 给 Banana 分 配 单独 的 分 区 ， 然 后 使 用 散 列 分 区 算法 处 理 其 他 账号 。 
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下 是 一 个 自 定 义 分 区 器 的 例子 : 


import org.apache.kafka.clients.producer .Partitioner; 

import org.apache.kafka.common.Cluster; 

import org.apache.kafka.common.PartitionInfo; 

import org.apache.kafka.common.record.InvalidRecordException; 
import org.apache.kafka.common.utils.Utils; 








public class BananapPartitioner implements Partitioner { 
public void configure(Map<String, ?> configs) {} © 


public int partition(String topic, Object key, byte[] keyBytes, 
Object value, byte[] valueBytes, 
Cluster cluster) { 
List<PpartitionInfo> partitions = 
cluster .partitionsForTopic(topic); 
int numpartitions = partitions.size(); 


if ((keyBytes == nuLL) || (!(key instanceOf String))) @ 
throw new InvalidRecordException("We expect all messages 
to have customer name as key") 


if (((String) key).equals("Banana")) 
return numpPartitions; // Banana 总 是 被 分 配 到 最 后 一 个 分 区 














// 其 他 记录 被 散 列 到 其 他 分 区 
return (Math.abs(Utils.murmur2(keyBytes)) % (numpartitions - 1)) 


} 








public void close() {} 
} 


@ Partitioner 接口 包含 了 configure、partition 和 close 这 3 个 方法 。 这 里 我 们 只 实现 
partition 方法 ， 不 过 我 们 真 不 应 该 在 partition 方法 里 硬 编码 客户 的 名 字 ， 而 应 该 通 
过 configure 方法 传 进来 。 

@ 我 们 只 接受 字符 串 作 为 键 ， 如 果 不 是 字符 串 ， 就 抛 出 异常 。 


3.7 ”旧版 的 生产 者 API 


在 这 一 章 ， 我 们 讨论 了 生产 者 的 Java 客户 端 ， 它 是 org.apache.kafka.clients 包 的 一 部 
分 。 在 写 到 这 一 章 的 时 候 ，Kafka 还 有 两 个 旧版 的 Scala 客户 端 ， 它 们 是 Kafka.producer 
包 的 一 部 分 ， 同 时 也 是 Kafka 的 核心 模块 ， 它 们 是 SyncProducer (根据 acks 参数 的 具 
体 配置 情况 ， 在 发 送 更 多 的 消息 之 前 ， 它 会 等 待 服务 器 对 已 发 消息 或 批 次 进行 确认 ) 和 
AsyncProducer (在 后 台 将 消息 分 为 不 同 的 批 次 ， 使 用 单独 的 线程 发 送 这 些 批 次 ， 不 为 客户 
端 提 供 发 送 结果 ) 。 

因为 当前 版 本 的 生产 者 API 同时 支持 上 述 两 种 发 送 方式 ， 而 且 为 开发 者 提供 了 更 高 的 可 靠 
性 和 灵活 性 ， 所 以 我 们 不 再 讨论 旧版 的 API。 如 果 你 想 使 用 它们 ， 那 么 在 使 用 之 前 请 再 三 
考虑 ， 如 果 确 定 要 使 用 ， 可 以 从 Kafka 文档 中 了 解 更 多 的 信息 。 




































































3.8 总 结 


我 们 以 一 个 生产 者 示例 开始 了 本 章 的 内 容 一 一 使 用 10 行 代码 将 消息 发 送 到 Kafka。 然 后 我 
们 在 代码 中 加 入 错误 处 理 逻 辑 ， 并 介绍 了 同步 和 异步 两 种 发 送 方式 。 接 下 来 ， 我 们 介绍 了 
生产 者 的 一 些 重要 配置 参数 以 及 它们 对 生产 者 行为 的 影响 。 我 们 还 讨论 了 用 于 控制 消息 格 
式 的 序列 化 器 ， 并 深入 探讨 了 Avro 一 一 一 种 在 Kafka 中 得 到 广泛 应 用 的 序列 化 方式 。 最 
后 ， 我 们 讨论 了 Kafka 的 分 区 机 制 ， 并 给 出 了 一 个 自 定义 分 区 的 例子 。 


现在 我 们 已 经 知道 如 何 向 Kafka 写 入 消息 ， 在 第 4 章 ， 我 们 将 学 习 如 何 从 Kafka 读 取 消息 。 
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第 4 章 


Kafka 消 费 者 一 一 从 Kafka 读 取 数 据 





应 用 程序 使 用 KafkaConsumer 向 Kafka 订阅 主题 ， 并 从 订阅 的 主题 上 接收 消息 。 从 Kafka 
读 取 数据 不 同 于 从 其 他 消息 系统 读 取 数 据 ， 它 涉及 一 些 独 特 的 概念 和 想法 。 如 果 不 先 理 解 
这 些 概念 ， 就 难以 理解 如 何 使 用 消费 者 API。 所 以 我 们 接 下 来 先 解释 这 些 重要 的 概念 ， 然 
后 再 举 几 个 例子 ， 演 示 如 何 使 用 消费 者 API 实现 不 同 的 应 用 程序 。 


4.1 KafkaConsumer 概 念 
要 想 知道 如 何 从 Kafka 读 取消 息 ， 需 要 先 了 解 消费 者 和 消费 者 群 组 的 概念 。 以 下 章节 将 解 


释 这 些 概念 。 


4.1.1 消费 者 和 消费 者 群 组 


假设 我 们 有 一 个 应 用 程序 需要 从 一 个 Kafka 主题 读 取消 息 并 验证 这 些 消息 ， 然 后 再 把 它们 
保存 起 来 。 应 用 程序 需要 创建 一 个 消费 者 对 象 ， 订 阅 主题 并 开始 接收 消息 ， 然 后 验证 消息 
并 保存 结果 。 过 了 一 阵子 ， 生 产 者 往 主 题写 入 消息 的 速度 超过 了 应 用 程序 验证 数据 的 速 
度 ， 这 个 时 候 该 怎么 办 ?如 果 只 使 用 单个 消费 者 处 理 消 息 ， 应 用 程序 会 远 跟 不 上 消息 生成 
的 速度 。 显 然 ， 此 时 很 有 必要 对 消费 者 进行 横向 伸缩 。 就 像 多 个 生产 者 可 以 向 相同 的 主题 
写 入 消息 一 样 ， 我 们 也 可 以 使 用 多 个 消费 者 从 同一 个 主题 读 取 消息 ， 对 消息 进行 分 流 。 


Kafka 消费 者 从 属于 消费 者 群 组 。 一 个 群 组 里 的 消费 者 订阅 的 是 同一 个 主题 ， 每 个 消费 者 
接收 主题 一 部 分 分 区 的 消息 。 

假设 主题 TI 有 4 个 分 区 ， 我 们 创建 了 消费 者 C1， 它 是 群 组 G1 里 唯一 的 消费 者 ， 我 们 用 
它 订阅 主题 T1。 消 费 者 C1 将 收 到 主题 Tl 全 部 4 个 分 区 的 消息 ， 如 图 4-1 所 示 。 
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消费 者 群 组 1 














4-1: 1 个 消费 者 收 到 4 个 分 区 的 消息 
如 果 在 群 组 G1 里 新 增 一 个 消费 者 C2， 那 么 每 个 消费 者 将 分 别 从 两 个 分 区 接收 消息 。 我 们 


假设 消费 者 C1 接收 分 区 0 和 分 区 2 的 消息 ， 消 费 者 C2 接收 分 区 1 和 分 区 3 的 消息 ， 如 图 
4-2 所 示 。 

















消费 者 群 组 1 














图 4-2: 2 个 消费 者 收 到 4 个 分 区 的 消息 














如 果 群 组 Gl 有 4 个 消费 者 ， 那 么 每 个 消费 者 可 以 分 配 到 一 个 分 区 ， 如 图 4-3 所 示 。 








消费 者 群 组 1 

















图 4-3: 4 个 消费 者 收 到 4 个 分 区 的 消息 
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如 果 我 们 往 群 组 里 添加 更 多 的 消费 者 ， 超 过 主题 的 分 区 数量 ， 那 么 有 一 部 分 消费 者 就 会 被 


闲置 ， 不 会 接收 到 任何 消 , 


和 让， 如 图 4-4 所 示 。 




















图 4-4: 5 个 消费 者 收 到 4 个 分 区 的 消息 


往 群 组 里 增加 消费 者 是 横向 伸缩 消费 能 力 的 主要 方式 。Kafka 消费 者 经 常会 做 一 些 高 延迟 
的 操作 ， 比 如 把 数据 写 到 数据 库 或 HDFS ， 或 者 使 用 数据 进行 比较 耗 时 的 计算 。 在 这 些 情 
况 下 ， 单 个 消费 者 无 法 跟 上 数据 生成 的 速度 ， 所 以 可 以 增加 更 多 的 消费 者 ， 让 它们 分 担负 














载 ， 每 个 消费 者 只 处 理 部 分 分 区 的 消息 ， 这 就 是 横向 人 





























缩 的 主要 手段 。 我 们 有 必要 为 主题 


创建 大 量 的 分 区 ， 在 负载 增长 时 可 以 加 入 更 多 的 消费 者 。 不 过 要 注意 ， 不 要 让 消费 者 的 数 
量 超过 主题 分 区 的 数量 ， 多 余 的 消费 者 只 会 被 闲置 。 第 2 章 介绍 了 如 何 为 主题 选择 合适 的 








分 区 数量 。 
除了 通过 增加 消费 者 来 横 





而 不 只 是 其 中 的 一 部 分 。 














向 伸缩 单个 应 用 程序 外 ， 还 经 常 出 现 多 个 应 用 程序 从 同一 个 主题 
读 取 数据 的 情况 。 实 际 上 ，Kafka 设计 的 主要 目标 之 一 ， 就 是 要 让 Kafka 主题 里 的 数据 能 
够 满足 企业 各 种 应 用 场景 的 需求 。 在 这 些 场景 里 ， 每 个 应 用 程序 可 以 获取 到 所 有 的 消息 ， 

















只 要 保证 每 个 应 用 程序 有 自己 的 消费 者 群 组 ， 就 可 以 让 它们 获取 


到 主题 所 有 的 消息 。 不 同 于 传统 的 消息 系统 ， 横 向 伸缩 Kafka 消费 者 和 消费 者 群 组 并 不 会 


对 性 能 造成 负面 影响 。 


在 上 面 的 例子 里 ， 如 果 新 增 一 个 只 








包含 一 个 消费 者 的 群 组 G2， 那么 这 个 消费 者 将 从 主题 


Tl 上 接收 所 有 的 消息 ， 与 群 组 G1 之 间 互 不 影响 。 群 组 G2 可 以 增加 更 多 的 消费 者 ， 每 个 
， 如 图 4-5 所 示 。 总 的 来 说 ， 群 组 G2 还 是 


消费 者 可 以 消费 若干 个 分 


会 接收 到 所 有 消息 ， 不 管 有 没有 其 他 群 组 存在 。 


区 ， 就 像 群 组 G1 那样 




















简 而 言 之 ， 为 每 一 个 需要 获取 一 个 或 多 个 主题 全 部 消息 的 应 用 程序 创建 一 个 消费 者 群 组 ， 


然后 往 群 组 里 添加 消费 者 来 伸缩 读 取 能 力 和 处 至 


消息 。 



































能 力 ， 群 组 里 的 每 个 消费 者 只 处 到 











一 部 分 





















































图 4-5: 两 个 消费 者 群 组 对 应 一 个 主题 


4.1.2 消费 者 群 组 和 分 区 再 均衡 


我 们 已 经 从 上 一 个 小 市 了 解 到 ， 群 组 里 的 消费 者 共同 读 取 主 题 的 分 区 。 一 个 新 的 消费 者 加 
入 群 组 时 ， 它 读 取 的 是 原本 由 其 他 消费 者 读 取 的 消息 。 当 一 个 消费 者 被 关闭 或 发 生 月 涡 
时 ， 它 就 离开 群 组 ， 原 本 由 它 读 取 的 分 区 将 由 群 组 里 的 其 他 消费 者 来 读 取 。 在 主题 发 生变 
化 时 ， 比 如 管理 员 添 加 了 新 的 分 区 ， 会 发 生 分 区 重 分 配 。 


分 区 的 所 有 权 从 一 个 消费 者 转移 到 另 一 个 消费 者 ， 这 样 的 行为 被 称 为 再 均衡 。 再 均衡 非常 
重要 ， 它 为 消费 者 群 组 带 来 了 高 可 用 性 和 伸缩 性 (我们 可 以 放心 地 添加 或 移 除 消费 者 )， 
不 过 在 正常 情况 下 ， 我 们 并 不 希望 发 生 这 样 的 行为 。 在 再 均衡 期 间 ， 消 费 者 无 法 读 取消 
息 ， 造 成 整个 群 组 一 小 段 时 间 的 不 可 用 。 另 外 ， 当 分 区 被 重新 分 配给 另 一 个 消费 者 时 ， 消 
费 者 当前 的 读 取 状态 会 丢失 ， 它 有 可 能 还 需要 去 刷新 缓存 ， 在 它 重新 恢复 状态 之 前 会 拖 慢 
应 用 程序 。 我 们 将 在 本 章 讨论 如 何 进 行 安全 的 再 均衡 ， 以 及 如 何 避 免 不 必 要 的 再 均衡 。 


消费 者 通过 向 被 指派 为 群 组 协调 器 的 broker (不 同 的 群 组 可 以 有 不 同 的 协调 器 ) 发 送 心跳 
来 维持 它们 和 群 组 的 从 属 关 系 以 及 它们 对 分 区 的 所 有 权 关 系 。 只 要 消费 者 以 正常 的 时 间 
间隔 发 送 心跳 ， 就 被 认为 是 活跃 的 ， 说 明 它 还 在 读 取 分 区 里 的 消息 。 消 费 者 会 在 轮 询 消息 
(为 了 获取 消息 ) 或 提交 偏 移 量 时 发 送 心 跳 。 如 果 消 费 者 停止 发 送 心 跳 的 时 间 足 够 长 ， 会 
话 就 会 过 期 ， 群 组 协调 器 认为 它 已 经 死亡 ， 就 会 触发 一 次 再 均衡 。 

如 果 一 个 消费 者 发 生出 沉 ， 并 停止 读 取 消息 ， 群 组 协调 器 会 等 待 几 秒 钟 ， 确 认 它 死亡 了 才 
会 触发 再 均衡 。 在 这 几 秒 钟 时 间 里 ， 死 掉 的 消费 者 不 会 读 取 分 区 里 的 消息 。 在 清理 消费 者 
时 ， 消 费 者 会 通知 协调 器 它 将 要 离开 群 组， 协调 器 会 立即 触发 一 次 再 均衡 ， 尽 量 降低 处 理 
停顿 。 在 本 章 的 后 续 部 分 ， 我 们 将 讨论 一 些 用 于 控制 发 送 心跳 频率 和 会 话 过 期 时 间 的 配置 
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参数 ， 以 及 如 何 根据 实际 需要 来 配置 这 些 参数 。 





心跳 行为 在 最 近 版 本 中 的 变化 

在 0.10.1 版 本 里 ，Kafka 社区 引入 了 一 个 独立 的 心跳 线程 ， 可 以 在 轮 询 消息 的 空 档 发 
送 心跳 。 这 样 一 来 ， 发 送 心跳 的 频率 (也 就 是 消费 者 群 组 用 于 检测 发 生前 满 的 消费 者 
或 不 再 发 送 心 跳 的 消费 者 的 时 间 ) 与 消息 轮 询 的 频率 (由 处 理 消息 所 花费 的 时 间 来 确 
定 ) 之 间 就 是 相互 独立 的 。 在 新 版 本 的 Kafka 里 ， 可 以 指定 消费 者 在 离开 群 组 并 触发 
再 均衡 之 前 可 以 有 多 长 时 间 不 进行 消息 轮 询 ， 这 样 可 以 避免 出 现 活 锁 (livelock) ， 比 
如 有 时 候 应 用 程序 并 没有 航 溃 ， 只 是 由 于 某 些 原因 导致 无 法 正常 运行 。 这 个 配置 与 
session.timeout.ms 是 相互 独立 的 ， 后 者 用 于 控制 检测 消费 者 发 生前 溃 的 时 间 和 停止 
发 送 心跳 的 时 间 。 


本 章 的 剩余 部 分 将 会 讨论 使 用 旧版 本 Kafka 会 面临 的 一 些 问题 ， 以 及 如 何 解决 这 些 问 
题 。 本 章 还 包括 如 何 应 对 需要 较 长 时 间 来 处 理 消息 的 情况 的 讨论 ， 这 些 与 0.10.1 或 更 
高 版 本 的 Kafka 没有 太 大 关系 。 如 果 你 使 用 的 是 较 新 版 本 的 Kafka， 并 且 需 要 处 理 耗 
费 较 长 时 间 的 消息 ， 只 需要 加 大 max.poll.interval.ms 的 值 来 增加 轮 询 间隔 的 时 长 。 








分 配 分 区 是 怎样 的 一 个 过 程 


当 消 费 者 要 加 入 群 组 时 ， 它 会 向 群 组 协调 器 发 送 一 个 JoinGroup 请 求 。 第 一 
个 加 入 群 组 的 消费 者 将 成 为 “ 群 主 ”。 群 主 从 协调 器 那里 获得 群 组 的 成 员 列 
表 (列表 中 包含 了 所 有 最 近 发 送 过 心跳 的 消费 者 ， 它 们 被 认为 是 活跃 的 )， 
并 负责 给 每 一 个 消费 者 分 配 分 区 。 它 使 用 一 个 实现 了 PartitionAssignor 接 
口 的 类 来 决定 哪些 分 区 应 该 被 分 配给 哪个 消费 者 。 

Kafka 内 置 了 两 种 分 配 策略 ， 在 后 面 的 配置 参数 小 闻 我 们 将 深 入 讨论 。 分 配 
完毕 之 后 ， 群 主 把 分 配 情况 列表 发 送 给 群 组 协调 器 ， 协 调 器 再 把 这 些 信息 发 
送 给 所 有 消费 者 。 每 个 消费 者 只 能 看 到 自己 的 分 配 信 息 ， 只 有 群 主 知道 群 组 
里 所 有 消费 者 的 分 配 信 息 。 这 个 过 程 会 在 每 次 再 均衡 时 重复 发 生 。 









































4.2 创建 Kafka 消 费 者 


在 读 取 消息 之 前 ， 需 要 先 创 建 一 个 KafkaConsumer 对 象 。 创 建 KafkaConsumer 对 象 与 创建 
Kafkaproducer 对 象 非常 相似 一 一 把 想 要 传 给 消费 者 的 属性 放 在 Properties 对 象 里 。 本 章 
后 续 部 分 会 深入 讨论 所 有 的 属性 。 在 这 里 ， 我 们 只 需要 使 用 3 个 必要 的 属性 : bootstrap. 
servers、key.deserializer 和 value.deserializer。 

第 1 个 属性 bootstrap.servers 指定 了 Kafka 集 群 的 连接 字符 串 。 它 的 用 途 与 在 
Kafkaproducer 中 的 用 途 是 一 样 的 ， 可 以 参考 第 3 章 了 解 它 的 详细 定义 。 另 外 两 个 属性 key. 
deserializer 和 value.deserializer 与 生产 者 的 serializer 定义 也 很 类 似 ， 不 过 它们 不 是 使 
用 指定 的 类 把 Java 对 象 转 成 字 节 数组 ， 而 是 使 用 指定 的 类 把 字 贡 数组 转 成 Java 对 象 。 




















第 4 个 属性 group.id 不 是 必需 的 ， 不 过 我 们 现在 姑且 认为 它 是 必需 的 。 它 指定 了 
KafkaConsumer 属于 哪 一 个 消费 者 群 组 。 创 建 不 属于 任何 一 个 群 组 的 消费 者 也 是 可 以 的 ， 只 
是 这 样 做 不 太 常见 ， 在 本 书 的 大 部 分 章节 ， 我 们 都 假设 消费 者 是 属于 某 个 群 组 的 。 

下 面 的 代码 片段 演示 了 如 何 创建 一 个 KafkaConsumer 对 象 : 


Properties props = new Properties(); 
props.put("bootstrap.servers", "broker1:9092,broker2:9092"); 
props.put("group.id", "CountryCounter"); 
props.put("key.deserializer", 
"org.apache.kafka.common.serialization.StringDeserializer"); 
props.put("value.deserializer", 
"org.apache.kafka.common.serialization.StringDeserializer"); 
































KafkaConsumer<String, String> consumer = new KafkaConsumer<String, 

String>(props); 
如 果 在 第 3 章 看 过 如 何 创 建生 产 者 ， 就 应 该 很 熟悉 上 面 的 这 段 代码 。 我 们 假设 消费 的 键 和 
值 都 是 字符 串 类 型 ， 所 以 使 用 的 是 内 置 的 stringDeserializer， 并 且 使 用 字符 串 类 型 创建 
了 KafkaConsumer 对 象 。 唯 一 不 同 的 是 新 增 了 group.id 属性 ， 它 指定 了 消费 者 所 属 群 组 的 
名 字 。 


MY MS 生日 
4.3 ”订阅 主题 
创建 好 消费 者 之 后 ， 下 一 步 可 以 开始 订阅 主题 了 。subscribe() 方法 接受 一 个 主题 列表 作 
为 参数 ， 使 用 起 来 很 简单 : 

consumer .subscribe(Collections.singletonList("customerCountries")); © 
@ 为 了 简单 起 见 ， 我们 创建 了 一 个 只 包含 单个 元 素 的 列表 ， 主 题 的 名 字 叫 作 “customer 
Countries” 。 

我 们 也 可 以 在 调用 subscribe() 方法 时 传 入 一 个 正则 表达 式 。 正 则 表达 式 可 以 匹配 多 个 主 
题 ， 如 果 有 人 创建 了 新 的 主题 ， 并 且 主 题 的 名 字 与 正则 表达 式 匹配 ， 那 么 会 立即 触发 一 次 
再 均衡 ， 消 费 者 就 可 以 读 取 新 添加 的 主题 。 如 果 应 用 程序 需要 读 取 多 个 主题 ， 并 且 可 以 处 
理 不 同类 型 的 数据 ， 那 么 这 种 订阅 方式 就 很 管用 。 在 Kafka 和 其 他 系统 之 间 复 制 数 据 时 ， 
使 用 正则 表达 式 的 方式 订阅 多 个 主题 是 很 常见 的 做 法 。 
要 订阅 所 有 与 test 相关 的 主题 ， 可 以 这 样 做 : 


Consumer .subscribe("test.*"); 


4.4 轮 询 


消息 轮 询 是 消费 者 API 的 核心 ,通过 一 个 简单 的 轮 询 向 服务 器 请 求 数据 。 一 旦 消费 者 订阅 
了 主题 ， 轮 询 就 会 处 理 所 有 的 细节 ， 包 括 群 组 协调 、 分 区 再 均衡 、 发 送 心 跳 和 获取 数据 ， 
开发 者 只 需要 使 用 一 组 简单 的 API 来 处 理 从 分 区 返回 的 数据 。 消 费 者 代码 的 主要 部 分 如 下 
所 示 : 
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try { 
while (true) { ©@ 


ConsumerRecords<String, String> records = consumer.poLL(100); ©@ 
for (ConsumerRecord<String, String> record : records) © 


log.debug("topic = %s, partition = 
country = %s\n", 


%s, offset = %d, customer = %s， 


record.topic(), record.partition(), record.offset(), 


record.key(), record.value()); 


int updatedCount = 1; 


if (custCountryMap.countainsValue(record.value())) { 
updatedCount = custCountryMap.get(record.value()) + 1; 


} 


custCountryMap.put(record.value(), 


updatedCount) 


JSONObject json = new JSONObject(custCountryMap); 
System.out.println(json.tosString(4)) @ 


} 


} 
} finally { 
consumer .close(); © 


3 


@ 这 是 一 个 无 限 循 环 。 消 费 者 实际 上 是 一 个 长 期 运行 的 应 用 程序 ， 它 通过 持续 轮 询 向 


Kafka 请 求 数据 。 稍 后 我 们 会 介绍 如 何 退 出 循环 




















， 并 关闭 消费 者 。 


名 这 一 行 代码 非常 重要 。 就 像 效 鱼 停止 移动 就 会 死 掉 一 样 ， 消 费 者 必须 持续 对 Kafka 进 
行 轮 询 ， 否 则 会 被 认为 已 经 死亡 ， 它 的 分 区 会 被 移交 给 群 组 里 的 其 他 消费 者 。 传 给 
poll() 方法 的 参数 是 一 个 超时 时 间 ， 用 于 控制 poll() 方法 的 阻塞 时 间 (在 消费 者 的 缓 











一 





中 区 里 没有 可 用 数据 时 会 发 生 阻 塞 )。 如 果 该 参数 被 设 为 0，potLL() 会 立即 返回 ， 否 则 


它 会 在 指定 的 读 秒 数 内 一 直 等 待 broker 返回 数据 。 














全 pol1l() 方法 返回 一 个 记录 列表 。 每 条 记录 都 包含 了 记录 所 属 主题 的 信息 、 记 录 所 在 4 
区 的 信息 、 记 录 在 分 区 里 的 偏 移 量 ， 以 及 记录 的 键 值 对 。 我 们 一 般 会 过 历 这 个 列表 ， 逐 


条 处 理 这 些 记 录 。pol1l() 方法 有 一 个 超时 参数 





























， 它 指定 了 方法 在 多 和 久之 后 可 以 返回 ， 














不 管 有 没有 可 用 的 数据 都 要 返回 。 超 时 时 间 的 设置 取决 于 应 用 程序 对 响应 速度 的 要 求 ， 
比如 要 在 多 长 时 间 内 把 控制 权 归 还 给 执行 轮 询 的 线程 。 


@ 把 结果 保存 起 来 或 者 对 已 有 的 记录 进行 更 新 ， 处 理 过 程 也 随 之 结束 。 在 这 里 ， 我 们 的 目 























的 是 统计 来 自 各 个 地 方 的 客户 数量 ， 所 以 使 用 了 一 个 散 列 表 来 保存 结果 ， 并 以 JSON 的 





格式 打印 结果 。 在 真实 场景 里 ， 结 果 一 般 会 被 保存 到 数据 存储 系统 里 。 

@ 在 退出 应 用 程序 之 前 使 用 close() 方法 关闭 消费 者 。 网 络 连接 和 socket 也 会 随 之 关闭 ， 
并 立即 触发 一 次 再 均衡 ， 而 不 是 等 待 群 组 协调 器 发 现 它 不 再 发 送 心跳 并 认定 它 已 死亡 ， 
因为 那样 需要 更 长 的 时 间 ， 导 致 整个 群 组 在 一 段 时 间 内 无 法 读 取消 息 。 

轮 询 不 只 是 获取 数据 那么 简单 。 在 第 一 次 调用 新 消费 者 的 poLL() 方法 时 ， 它 会 负责 查找 



































GroupCoordinator， 然 后 加 入 群 组 ， 接 受 分 配 的 分 
在 轮 询 期 间 进行 的 。 当 然 ， 心 跳 也 是 从 轮 询 里 发 送 
所 做 的 任何 处 理工 作 都 应 该 尽快 完成 。 

















区 。 如 有 果 发 生 了 再 均衡 ， 整 个 过 程 也 是 
出 去 的 。 所 以 ， 我 们 要 确保 在 轮 询 期 间 








邮 


线程 安全 

在 同一 个 群 组 里 ， 我 们 无 法 让 一 个 线程 运行 多 个 消费 者 ， 也 无 法 让 多 个 线 
程 安 全 地 共享 一 个 消费 者 。 按 照 规 则 ， 一 个 消费 者 使 用 一 个 线程 。 如 果 
要 在 同一 个 消费 者 群 组 里 运行 多 个 消费 者 ， 需 要 让 每 个 消费 者 运行 在 自己 
的 线程 里 。 最 好 是 把 消费 者 的 逻辑 封装 在 自己 的 对 象 里 ， 然 后 使 用 Java 
的 ExecutorService 启动 多 个 线程 ， 使 每 个 消费 者 运行 在 自己 的 线程 上 。 
Confluent 的 博客 (https://www.confluent.io/blog/) 上 有 一 个 教程 介绍 如 何 处 
理 这 种 情况 。 





























4.5 消费 者 的 配置 


到 目前 为 止 ， 我 们 学 习 了 如 何 使 用 消费 者 API， 不 过 只 介绍 了 几 个 配置 属性 一 一 bootstrap. 
servers、group.id、key.deserializer 和 value.deserializer。Kafka 的 文档 列 出 了 所 有 与 消费 者 相 
关 的 配置 说 明 。 大 部 分 参数 都 有 合理 的 默认 值 ， 一 般 不 需要 修改 它们 ， 不 过 有 一 些 参 数 与 消费 
者 的 性 能 和 可 用 性 有 很 大 关系 。 接 下 来 介绍 这 些 重要 的 属性 。 


1. fetch.min.bytes 


该 属性 指定 了 消费 者 从 服务 器 获取 记录 的 最 小 字 市 数 。broker 在 收 到 消费 者 的 数据 请 求 时 ， 
如 果 可 用 的 数据 量 小 于 fetch.min.bytes 指定 的 大 小 ， 那 么 它 会 等 到 有 足够 的 可 用 数据 时 
才 把 它 返 回 给 消费 者 。 这 样 可 以 降低 消费 者 和 broker 的 工作 负载 ， 因 为 它们 在 主题 不 是 很 
活跃 的 时 候 (或 者 一 天 里 的 低谷 时 段 ) 就 不 需要 来 来 回回 地 处 理 消息 。 如 果 没 有 很 多 可 用 
数据 ， 但 消费 者 的 CPU 使 用 率 却 很 高 ， 那 么 就 需要 把 该 属性 的 值 设 得 比 默认 值 大 。 如 果 
消费 者 的 数量 比较 多 ， 把 该 属性 的 值 设置 得 大 一 点 可 以 降低 broker 的 工作 负载 。 


2. fetch.max.wait.ms 


我 们 通过 fetch.min.bytes 告诉 Kafka， 等 到 有 足够 的 数据 时 才 把 它 返回 给 消费 者 。 而 feth. 
max.wait.ms 则 用 于 指定 broker 的 等 待 时 间 ， 默 认 是 500ms。 如 果 没 有 足够 的 数据 流入 
Kafka， 消 费 者 获取 最 小 数据 量 的 要 求 就 得 不 到 满足 ， 最 终 导 致 500ms 的 延迟 。 如 果 要 降低 
潜在 的 延迟 (为 了 满足 SLA)， 可 以 把 该 参数 值 设置 得 小 一 些 。 如 果 fetch.max.wait.ms 被 设 
为 100ms， 并 且 fetch.min.bytes 被 设 为 MB， 那么 Kafka 在 收 到 消费 者 的 请 求 后 ， 要 么 返 
回 1MB 数据 ， 要 么 在 100ms 后 返回 所 有 可 用 的 数据 ， 就 看 哪个 条 件 先 得 到 满足 。 


3. max.partition.fetch.bytes 


该 属性 指定 了 服务 器 从 每 个 分 区 里 返回 给 消费 者 的 最 大 字 节 数 。 它 的 默认 值 是 1IMB ， 也 
就 是 说 ，KafkaConsumer.pol1l() 方法 从 每 个 分 区 里 返回 的 记录 最 多 不 超过 max.partition. 
fetch.bytes 指定 的 字 节 。 如 果 一 个 主题 有 20 个 分 区 和 5 个 消费 者 ， 那 么 每 个 消费 者 需要 
至 少 4MB 的 可 用 内 存 来 接收 记录 。 在 为 消费 者 分 配 内 存 时 ， 可 以 给 它们 多 分 配 一 些 ， 因 
为 如 果 群 组 里 有 消费 者 发 生 崩 涡 ， 剩 下 的 消费 者 需要 处 理 更 多 的 分 区 。max.partition. 
fetch.bytes 的 值 必须 比 broker 能 够 接收 的 最 大 消息 的 字 节 数 (通过 max.message.size 属 
性 配置 ) 大 ， 否 则 消费 者 可 能 无 法 读 取 这 些 消息 ， 导 致 消费 者 一 直 挂 起 重 试 。 在 设置 该 属 
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性 时 ， 男 一 个 需要 考虑 的 因素 是 消费 者 处 理 数 据 的 时 间 。 消 费 者 需要 频繁 调用 poLL() 方法 
来 避免 会 话 过 期 和 发 生 分 区 再 均衡 ， 如 果 单 次 调用 poLL() 返回 的 数据 太 多 ， 消 费 者 需要 更 
多 的 时 间 来 处 理 ， 可 能 无 法 及 时 进行 下 一 个 轮 询 来 避免 会 话 过 期 。 如 果 出 现 这 种 情况 ， 可 
以 把 max.partition.fetch.bytes 值 改 小 ， 或 者 延长 会 话 过 期 时 间 。 

4. session.timeout.ms 


该 属性 指定 了 消费 者 在 被 认为 死亡 之 前 可 以 与 服务 器 断 开 连接 的 时 间 ， 默 认 是 3s。 如 
果 消 费 者 没有 在 session.timeout.ms 指定 的 时 间 内 发 送 心 跳 给 群 组 协调 器 ， 就 被 认为 
已 经 死亡 ， 协 调 器 就 会 触发 再 均衡 ， 把 它 的 分 区 分 配给 群 组 里 的 其 他 消费 者 。 该 属性 与 
heartbeat.interval.ms 紧密 相关 。heartbeat.interval.ms 指定 了 poll() 方 法 向 协调 器 
发 送 心 跳 的 频率 ，session.timeout.ms 则 指定 了 消费 者 可 以 多 久 不 发 送 心跳 。 所 以 ,一 
般 需 要 同时 修改 这 两 个 属性 ，heartbeat.intervaL.ms 必须 比 session.timeout.ms 小 ， 一 
般 是 session.timeout.ms 的 三 分 之 一 。 如 果 session.timeout.ms 是 3S， 那 么 heartbeat. 
interval.ms 应 该 是 18。 把 session.timeout.ms 值 设 得 比 默 认 值 小 ， 可 以 更 快 地 检测 和 恢 
复 崩溃 的 节点 ， 不 过 长 时 间 的 轮 询 或 垃圾 收集 可 能 导致 非 预期 的 再 均衡 。 把 该 属性 的 值 设 
置 得 大 一 些 ， 可 以 减少 意外 的 再 均衡 ， 不 过 检测 节点 崩溃 需要 更 长 的 时 间 。 

5. auto.offset.reset 
该 属性 指定 了 消费 者 在 读 取 一 个 没有 偏 移 量 的 分 区 或 者 偏 移 量 无 效 的 情况 下 ( 因 消 费 者 长 
时 间 失 效 ， 包 含 偏 移 量 的 记录 已 经 过 时 并 被 删除 ) 该 作 何 处 理 。 它 的 默认 值 是 Latest， 意 
思 是 说 ， 在 偏 移 量 无 效 的 情况 下 ， 消 费 者 将 从 最 新 的 记录 开始 读 取 数据 (在 消费 者 启动 之 
后 生成 的 记录 )。 男 一 个 值 是 earliest， 意 思 是 说 ， 在 偏 移 量 无 效 的 情况 下 ， 消 费 者 将 从 
起 始 位 置 读 取 分 区 的 记录 。 

6. enable.auto.commit 

我 们 稍 后 将 介绍 几 种 不 同 的 提交 偏 移 量 的 方式 。 该 属性 指定 了 消费 者 是 否 自动 提交 偏 移 
量 ， 默认 值 是 true。 为 了 尽量 避免 出 现 重复 数据 和 数据 丢失 ， 可 以 把 它 设 为 false， 由 自 
己 控 制 何 时 提交 偏 移 量 。 如 果 把 它 设 为 true， 还 可 以 通过 配置 auto.commit.interval.ms 
属性 来 控制 提交 的 频率 。 


7. partition.assignment.strategy 


我 们 知道 ， 分 区 会 被 分 配给 群 组 里 的 消费 者 。PartitionAssignor 根据 给 定 的 消费 者 和 主 
题 ， 决 定 哪 些 分 区 应 该 被 分 配给 哪个 消费 者 。Kafka 有 两 个 默认 的 分 配 策略 。 


Range 
该 策略 会 把 主题 的 若干 个 连续 的 分 区 分 配给 消费 者 。 假 设 消费 者 Cl 和 消费 者 C2 同时 
订阅 了 主题 TI 和 主题 T2， 并 且 每 个 主题 有 3 个 分 区 。 那 么 消费 者 Cl1 有 可 能 分 配 到 这 
两 个 主题 的 分 区 0 和 分 区 1， 而 消费 者 C2 分 配 到 这 两 个 主题 的 分 区 2。 因 为 每 个 主题 
拥有 奇数 个 分 区 ， 而 分 配 是 在 主题 内 独立 完成 的 ， 第 一 个 消费 者 最 后 分 配 到 比 第 二 个 消 
费 者 更 多 的 分 区 。 只 要 使 用 了 Range 策略 ， 而 且 分 区 数量 无 法 被 消费 者 数量 整除 ， 就 会 
出 现 这 种 情况 。 





































































































RoundRobin 
该 策略 把 主题 的 所 有 分 区 逐个 分 配给 消费 者 。 如 果 使 用 RoundRobin 策略 来 给 消费 者 C1 
和 消费 者 C2 分 配 分 区 ， 那 么 消费 者 C1 将 分 到 主题 TI 的 分 区 0 和 分 区 2 以 及 主题 T2 
的 分 区 1， 消 费 者 C2 将 分 配 到 主题 T1 的 分 区 1 以 及 主题 T2 的 分 区 0 和 分 区 2。 一 般 
来 说 ， 如 果 所 有 消费 者 都 订阅 相同 的 主题 (这 种 情况 很 常见 ) ，RoundRobin 策略 会 给 所 
有 消费 者 分 配 相同 数量 的 分 区 (或 最 多 就 差 一 个 分 区 ) 。 
可 以 通过 设置 partition.assignment.strategy 来 选择 分 区 策略 。 上 默认 使 用 的 是 org. 
apache.kafka.clients.consumer .RangeAssignor， 这 个 类 实现 了 Range 策略 ， 不 过 也 可 以 
把 它 改 成 org.apache.kafka.clients.consumer .RoundRobinAssignor。 我 们 还 可 以 使 用 自 定 
义 策略 ， 在 这 种 情况 下 ，partition.assignment.strategy 属性 的 值 就 是 自 定义 类 的 名 字 。 


8. client.id 

该 属性 可 以 是 任意 字符 串 ，broker 用 它 来 标识 从 客户 端 发 送 过 来 的 消息 ， 通 常 被 用 在 日 志 、 
度量 指标 和 配额 里 。 

9. max.poll.records 


该 属性 用 于 控制 单 次 调用 calt() 方法 能 够 返回 的 记录 数量 ， 可 以 帮 你 控制 在 轮 询 里 需要 处 
理 的 数据 量 。 


10. receive.buffer.bytes 和 send.buffer.bytes 


socket 在 读 写 数据 时 用 到 的 TCP 缓冲 区 也 可 以 设置 大 小 。 如 有 果 它 们 被 设 为 -1， 就 使 用 操 
作 系 统 的 默认 值 。 如 果 生 产 者 或 消费 者 与 broker 处 于 不 同 的 数据 中 心 内 ， 可 以 适当 增 大 这 
些 值 ， 因 为 跨 数据 中 心 的 网 络 一 般 都 有 比较 高 的 延迟 和 比较 低 的 带宽 。 


4.6 ”提交 和 偏 移 量 


每 次 调用 potLL() 方法 ， 它 总 是 返回 由 生产 者 写 入 Kafka 但 还 没有 被 消费 者 读 取 过 的 记录 ， 
我 们 因此 可 以 追踪 到 哪些 记录 是 被 群 组 里 的 哪个 消费 者 读 取 的 。 之 前 已 经 讨论 过 ，Kafka 
不 会 像 其 他 JMS 队列 那样 需要 得 到 消费 者 的 确认 ， 这 是 Kafka 的 一 个 独特 之 处 。 相 反 ， 消 
费 者 可 以 使 用 Kafka 来 追踪 消息 在 分 区 里 的 位 置 ( 偏 移 量 )。 


我 们 把 更 新 分 区 当前 位 置 的 操作 叫 作 提交 。 


那么 消费 者 是 如 何 提 交 偏 移 量 的 呢 ?” 消 费 者 往 一 个 叫 作 _consumer_offset 的 特殊 主题 发 送 
消息 ， 消 息 里 包含 每 个 分 区 的 偏 移 量 。 如 果 消 费 者 一 直 处 于 运行 状态 ， 那 么 偏 移 量 就 没有 
什么 用 处 。 不 过 ， 如 果 消 费 者 发 生 崩 江 或 者 有 新 的 消费 者 加 入 群 组 ， 就 会 触发 再 均衡 ， 完 
成 再 均衡 之 后 ， 每 个 消费 者 可 能 分 配 到 新 的 分 区 ， 而 不 是 之 前 处 理 的 那个 。 为 了 能 够 继续 
之 前 的 工作 ， 消 费 者 需要 读 取 每 个 分 区 最 后 一 次 提交 的 偏 移 量 ， 然 后 从 偏 移 量 指 定 的 地 方 
继续 处 理 


如 果 提 交 的 偏 移 量 小 于 客户 端 处 理 的 最 后 一 个 消息 的 偏 移 量 ， 那 么 处 于 两 个 偏 移 量 之 间 的 
消息 就 会 被 重复 处 理 ， 如 图 4-6 所 示 。 
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正在 处 理 的 事件 
这 些 事件 在 进行 再 均衡 时 会 
























































被 重新 处 理 ， 导 致 重复 














一 次 轮 询 
上 一 次 提交 的 偏 移 量 Ee 











4-6: 提交 的 偏 移 量 小 于 客户 端 处 理 的 最 后 一 个 消息 的 偏 移 量 


如 果 提 交 的 偏 移 量 大 于 客户 端 处 理 的 最 后 一 个 消息 的 偏 移 量 ， 那 么 处 于 两 个 偏 移 量 之 间 的 
消息 将 会 丢失 ， 如 图 4-7 所 示 。 











正在 处 理 的 事件 

















一 次 轮 询 
















































































再 均衡 时 会 丢失 
上 一 次 提交 的 偏 移 量 




















4-7: 提交 的 偏 移 量 大 于 客户 端 处 理 的 最 后 一 个 消息 的 偏 移 量 
所 以 ， 处 理 偏 移 量 的 方式 对 客户 端 会 有 很 大 的 影响 。 
KafkaConsumer API 提供 了 很 多 种 方式 来 提交 偏 移 量 。 


4.6.1 自动 提交 


最 简单 的 提交 方式 是 让 消费 者 自动 提交 偏 移 量 。 如 果 enable.auto.commit 被 设 为 true， 
么 每 过 5s， 消 费 者 会 自动 把 从 poll() 方法 接收 到 的 最 大 偏 移 量 提交 上 去 。 提 3 0 
由 auto.commit.interval.ms 控制 ,默认 值 是 5s。 与 消费 者 里 的 其 他 东西 一 样 ， 自 动 提交 
也 是 在 轮 询 里 进行 的 。 消 费 者 每 次 在 进行 轮 询 时 会 检查 是 否 该 提交 偏 移 量 了 ， 如 果 是 ， 那 
么 就 会 提交 从 上 一 次 轮 询 返 回 的 偏 移 量 。 


不 过 ， 在 使 用 这 种 简便 的 方式 之 前 ， 需 要 知道 它 将 会 带 来 怎样 的 结果 。 

假设 我 们 仍然 使 用 默认 的 5s 提交 时 间 间 隔 ， 在 最 近 一 次 提交 之 后 的 3s 发 生 了 再 均衡 ， 再 
均衡 之 后 ， 消 费 者 从 最 后 一 次 提交 的 偏 移 量 位 置 开始 读 取消 息 。 这 个 时 候 偏 移 量 已 经 落后 
了 3s， 所 以 在 这 3s 内 到 达 的 消息 会 被 重复 处 理 。 可 以 通过 修改 提交 时 间 间 隔 来 更 频 党 地 
提交 偏 移 量 ， 减 小 可 能 出 现 重复 消息 的 时 间 窗 ， 不 过 这 种 情况 是 无 法 完全 避免 的 。 
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在 使 用 自动 提交 时 ， 每 次 调用 轮 询 方法 都 会 把 上 一 次 调用 返回 的 偏 移 量 提 交 上 去 ， 它 并 不 
知道 具体 哪些 消息 已 经 被 处 理 了 ， 所 以 在 再 次 调用 之 前 最 好 确保 所 有 当前 调用 返回 的 消息 
都 已 经 处 理 完毕 (在 调用 close() 方法 之 前 也 会 进行 自动 提交 )。 一 般 情 况 下 不 会 有 什么 问 
题 ， 不 过 在 处 理 异 常 或 提前 退出 轮 询 时 要 格外 小 心 。 


自动 提交 虽然 方便 ， 不 过 并 没有 为 开发 者 留 有 余地 来 避免 重复 处 理 消息 。 


4.6.2 ”提交 当前 偏 移 量 

大 部 分 开发 者 通过 控制 偏 移 量 提交 时 间 来 消除 丢失 消息 的 可 能 性 ， 并 在 发 生 再 均衡 时 减少 
重复 消息 的 数量 。 消 费 者 API 提供 了 另 一 种 提交 偏 移 量 的 方式 ， 开 发 者 可 以 在 必要 的 时 候 
提交 当前 偏 移 量 ， 而 不 是 基于 时 间 间 隔 。 


把 auto.commit.offset 设 为 faLse， 让 应 用 程序 决定 何 时 提交 偏 移 量 。 使 用 commitSync() 
提交 偏 移 量 最 简单 也 最 可 靠 。 这 个 API 会 提交 由 potLL() 方法 返回 的 最 新 偏 移 量 ， 提 交 成 
功 后 马上 返回 ， 如 果 提 交 失 败 就 抛 出 异常 。 

要 记 住 ，commitsync() 将 会 提交 由 poLL() 返回 的 最 新 偏 移 量 ， 所 以 在 处 理 完 所 有 记录 后 要 
确保 调用 了 commitsync()， 否 则 还 是 会 有 丢失 消息 的 风险 。 如 果 发 生 了 再 均衡 ， 从 最 近 一 
批 消息 到 发 生 再 均衡 之 间 的 所 有 消息 都 将 被 重复 处 理 。 


下 面 是 我 们 在 处 理 完 最 近 一 批 消息 后 使 用 commitsync() 方法 提交 偏 移 量 的 例子 。 


while (true) { 
ConsumerRecords<String, String> records = consumer .poll(100); 
for (ConsumerRecord<String, String> record : records) 


{ 

















































































































System.out.printf("topic = %s, partition = %s, offset = 
%d, customer = %s, country = %s\n", 
record.topic(), record.partition(), 
record.offset(), record.key(), record.value()); ©O 
} 
try { 
consumer .commitSync(); 人 
} catch (CommitFailedException e) { 
Log.error("commit failed", e) © 


} 


@ 我 们 假设 把 记录 内 容 打印 出 来 就 算 处 理 完 毕 ， 这 个 是 由 应 用 程序 根据 具体 的 使 用 场景 来 
决定 的 。 

@ 处 理 完 当前 批 次 的 消息 ， 在 轮 询 更 多 的 消息 之 前 ， 调 用 commitsync() 方法 提交 当前 批 
次 最 新 的 偏 移 量 。 

全 只 要 没有 发 生 不 可 恢复 的 错误 ，commitsync() 方法 会 一 直 尝 试 直至 提交 成 功 。 如 果 提 交 
失败 ， 我 们 也 只 能 把 异常 记录 到 错误 日 志 里 。 


























4.6.3 ”异步 提交 


手动 提交 有 一 个 不 足 之 处 ， 在 broker 对 提交 请 求 作出 回应 之 前 ， 应 用 程序 会 一 直 阻塞 ， 





[Ee 
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样 会 限制 应 用 程序 的 吞吐 量 。 我 们 可 以 通过 降低 提交 频率 来 提升 吞吐 量 ， 但 如 果 发 生 了 再 
均衡 ， 会 增加 重复 消息 的 数量 。 
这 个 时 候 可 以 使 用 异步 提交 API。 我 们 只 管 发 送 提交 请 求 ， 无 需 等 待 broker 的 响应 。 


while (true) { 
ConsumerRecords<String, String> records = consumer .poLL(100); 
for (ConsumerRecord<String, String> record : records) 








{ 
System.out.printf("topic = %s, partition = %s, 
offset = %d, customer = %s, country = %s\n", 
record.topic(), record.partition(), record.offset(), 
record.key(), record.value()); 

} 


consumer .commitAsync(); © 


} 
@ 提交 最 后 一 个 偏 移 量 ， 然 后 继续 做 其 他 事情 。 


在 成 功 提 交 或 碰 到 无 法 恢复 的 错误 之 前 ，commitsync() 会 一 直 重 试 ， 但 是 commitAsync() 
不 会 ， 这 也 是 commitAsync() 不 好 的 一 个 地 方 。 它 之 所 以 不 进行 重 试 ， 是 因为 在 它 收 到 
服务 器 响应 的 时 候 ， 可 能 有 一 个 更 大 的 偏 移 量 已 经 提交 成 功 。 假 设 我 们 发 出 一 个 请 求 用 
于 提交 偏 移 量 2000， 这 个 时 候 发 生 了 短暂 的 通信 问题 ， 服 务 器 收 不 到 请 求 ， 自 然 也 不 会 
作出 任何 响应 。 与 此 同时 ， 我 们 处 理 了 另外 一 批 消息 ， 并 成 功 提 交 了 偏 移 量 3000。 如 果 
commitAsync() 重新 尝试 提交 偏 移 量 2000， 它 有 可 能 在 偏 移 量 3000 之 后 提交 成 功 。 这 个 时 
修 如 果 发 生 再 均衡 ， 就 会 出 现 重复 消息 。 


我 们 之 所 以 提 到 这 个 问题 的 复杂 性 和 提交 顺序 的 重要 性 ， 是 因为 commitAsync() 也 支持 回 
调 ， 在 broker 作出 响应 时 会 执行 回调 。 回 调经 常 被 用 于 记录 提交 错误 或 生成 度量 指标 ， 不 
过 如 果 你 要 用 它 来 进行 重 试 ， 一 定 要 注意 提交 的 顺序 。 


while (true) { 
ConsumerRecords<String, String> records = consumer .poll(100); 
for (ConsumerRecord<String, String> record : records) { 
System.out.printf("topic = %s, partition = %s, 
offset = %d, customer = %s, country = %s\n", 
record.topic(), record.partition(), record.offset(), 
record.key(), record.value()); 
























































} 
consumer .commitAsync(new OffsetCommitCallback() { 
public void onComplete(Map<Topicpartition, 
OffsetAndMetadata> offsets, Exception e) { 
if (e != null) 
log.error("Commit failed for offsets {}", offsets, e); 


} 
)); 和 








@ 发 送 提交 请 求 然后 继续 做 其 他 事情 ， 如 果 提 交 失 败 ， 错 误 信息 和 偏 移 量 会 被 记录 下 来 。 








重 试 异步 提交 

我 们 可 以 使 用 一 个 单调 递增 的 序列 号 来 维护 异步 提交 的 顺序 。 在 每 次 提交 偏 
移 量 之 后 或 在 回调 里 提交 偏 移 量 时 递增 序列 号 。 在 进行 重 试 前 ， 先 检查 回调 
的 序列 号 和 即将 提交 的 偏 移 量 是 否 相 等 ， 如 果 相 等 ， 说 明 没有 新 的 提交 ， 那 
么 可 以 安全 地 进行 重 试 。 如 果 序 列 号 比较 大 ， 说 明 有 一 个 新 的 提交 已 经 发 送 
出 去 了 ， 应 该 停止 重 试 。 


























4.6.4 同步 和 异步 组 合 提交 

一 般 情 况 下 ， 针 对 偶尔 出 现 的 提交 失败 ， 不 进行 重 试 不 会 有 太 大 问题 ， 因 为 如 果 提 交 失 败 
是 因为 临时 间 题 导致 的 ， 那 么 后 续 的 提交 总 会 有 成 功 的 。 但 如 果 这 是 发 生 在 关闭 消费 者 或 
再 均衡 前 的 最 后 一 次 提交 ， 就 要 确保 能 够 提交 成 功 。 

因此 ， 在 消费 者 关闭 前 一 般 会 组 合 使 用 commitAsync() 和 commitsync()。 它 们 的 工作 原理 
如 下 (后 面 讲 到 再 均衡 监听 器 时 ， 我 们 会 讨论 如 何在 发 生 再 均衡 前 提交 偏 移 量 ) : 


try { 
while (true) { 

ConsumerRecords<String, String> records = consumer .poLL(100); 

for (ConsumerRecord<String, String> record : records) { 
System.out.println("topic = %s, partition = %s, offset = %d, 
customer = %s, country = %s\n", 
record.topic(), record.partition(), 
record.offset(), record.key(), record.value()); 

} 


consumer .commitAsync(); © 



































} catch (Exception e) { 
log.error("Unexpected error", e); 
} finally { 
try { 
consumer .CommitSync(); @ 
} finally { 
consumer .close(); 
} 
} 


@ 如 果 一 切 正 常 ， 我 们 使 用 commitAsync() 方法 来 提交 。 这 样 速度 更 快 ， 而 且 即 使 这 次 提 
交 失 败 ， 下 一 次 提交 很 可 能 会 成 功 。 

@ 如 果 直 接 关 闭 消费 者 ， 就 没有 所 谓 的 “下 一 次 提交 ”了 。 使 用 commitsync() 方法 会 一 
直 重 试 ， 直 到 提交 成 功 或 发 生 无 法 恢复 的 错误 。 


4.6.5 提交 特定 的 偏 移 量 
提交 偏 移 量 的 频率 与 处 理 消息 批 次 的 频率 是 一 样 的 。 但 如 果 想 要 更 频繁 地 提交 该 怎么 办 ? 


如 果 poLL() 方法 返回 一 大 批 数据 ， 为 了 避免 因 再 均衡 引起 的 重复 处 理 整 批 消息 ， 想 要 在 批 
次 中 间 提 交 偏 移 量 该 怎么 办 ?这 种 情况 无 法 通过 调用 commitsync() 或 commitAsync() 来 实 
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现 ， 因 为 它们 只 会 提交 最 后 一 个 偏 移 量 ， 而 此 时 该 批 次 里 的 消息 还 没有 处 理 


[== 


IEo 


幸运 的 是 ， 消 费 者 API 允许 在 调用 commitsync() 和 commitAsync() 方法 时 传 进去 希望 提交 
的 分 区 和 偏 移 量 的 map。 假 设 你 处 理 了 半 个 批 次 的 消息 ， 最 后 一 个 来 自主 题 “customers” 











分 区 3 的 消息 的 偏 移 量 是 5000， 你 可 以 调用 commitsync() 方法 来 提交 它 。 





不 过 ， 因 为 消 





费 者 可 能 不 只 读 取 一 个 分 区 ， 你 需要 跟踪 所 有 分 区 的 偏 移 量 ， 所 以 在 这 个 层 





量 的 提交 会 让 代码 变 复杂 。 
下 面 是 提交 特定 偏 移 量 的 例子 : 


private Map<Topicpartition, OffsetAndMetadata> currentOffsets = 
new HashMap<>(); © 
int count = 0; 

















while (true) { 
ConsumerRecords<String, String> records = consumer .poll(100); 
for (ConsumerRecord<String, String> record : records) 


{ 
System.out.printf("topic = %s, partition = %s, offset = %d, 
customer = %s, country = %s\n", 
record.topic(), record.partition(), record.offset(), 
record.key(), record.value()); @ 
currentOffsets.put(new Topicpartition(record.topic(), 
record.partition()), new 
OffsetAndMetadata(record.offset()+1, "no metadata")); © 
if (count % 1000 == 0) @ 

consumer .commitAsync(currentoffsets,null); © 

CounNt++; 

} 


3 


@ 用 于 跟踪 偏 移 量 的 map。 
@ 记 住 ，printf 只 是 处 理 消 息 的 临时 方案 。 

















面 上 控制 偏 移 








@ 在 读 取 每 条 记录 之 后 ， 使 用 期 望 处 理 的 下 一 个 消息 的 偏 移 量 更 新 map 里 的 偏 移 量 。 下 





一 次 就 从 这 里 开始 读 取消 息 。 








@ 我 们 决定 每 处 理 1000 条 记录 就 提交 一 次 偏 移 量 。 在 实际 应 用 中 ， 你 可 以 根据 时 间或 记 





录 的 内 容 进 行 提 交 。 


@ 这 里 调用 的 是 commitAsync()， 不 过 调用 commitsync() 也 是 完全 可 以 的 。: 





特定 偏 移 量 时 ， 仍 然 要 处 理 可 能 发 生 的 错误 。 


4.7 再 均衡 监 上 折 器 














在 提交 偏 移 量 一 市 中 提 到 过 ， 消 费 者 在 退出 和 进行 分 区 再 均衡 之 前 ， 会 做 一 些 清理 工作 。 




















你 会 在 消费 者 失去 对 一 个 分 区 的 所 有 权 之 前 提交 最 后 一 个 已 处 理 记 录 的 偏 移 量 。 如 有 果 消 费 
者 准备 了 一 个 缓冲 区 用 于 处 理 偶 发 的 事件 ， 那 么 在 失去 分 区 所 有 权 之 前 ， 需 要 处 理 在 缓冲 





























区 累积 下 来 的 记录 。 你 可 能 还 需要 关闭 文件 句柄、 数据 库 连接 等 。 
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在 为 消费 者 分 配 新 分 区 或 移 除 旧 分 区 时 ， 可 以 通过 消费 者 API 执行 一 些 应 用 程序 代 
码 ， 在 调用 subscribe() 方法 时 传 进去 一 个 ConsumerRebalanceListener 实例 就 可 以 了 。 
ConsumerRebalanceListener 有 两 个 需要 实现 的 方法 。 


(1)public void onPartitionsRevoked(CoLLection<TopicPartition> partitions) 方法 会 在 

再 均衡 开始 之 前 和 消费 者 停止 读 取 消息 之 后 被 调用 。 如 果 在 这 里 提交 偏 移 量 ， 下 一 个 接 
管 分 区 的 消费 者 就 知道 该 从 哪里 开始 读 取 了 。 

(2) public void onpartitionsAssigned(Collection<Topicpartition> partitions) 方法 会 在 
重新 分 配 分 区 之 后 和 消费 者 开始 读 取消 息 之 前 被 调用 。 

下 面 的 例子 将 演示 如 何在 失去 分 区 所 有 权 之 前 通过 onPartitionsRevoked() 方法 来 提交 偏 

移 量 。 在 下 一 节 ， 我 们 会 演示 另 一 个 同时 使 用 了 onPartitionsAssigned() 方法 的 例子 。 









































private Map<Topicpartition, OffsetAndMetadata> CUrrentOffsets= 
new HashMap<>(); 


private class HandleRebalance implements ConsumerRebaLanceListener { © 
public void onpartitionsAssigned(Collection<Topicpartition> 
partitions) { @ 
} 


public void onpartitionsRevoked(Collection<Topicpartition> 
partitions) { 
System.out.println("Lost partitions in rebalance. 
Committing current 
offsets:" + currentoffsets); 
consumer .commitSync(currentoffsets); © 


} 


try { 
consumer .subscribe(topics, new HandleRebalance()); @ 


while (true) { 
ConsumerRecords<String, String> records = 
Consumer .poll(100); 
for (ConsumerRecord<String, String> record : records) 


{ 
System.out.println("topic = %s, partition = %s, offset = %d, 

customer = %s, country = %s\n", 
record.topic(), record.partition(), record.offset(), 
record.key(), record.value()); 
currentOffsets.put(new Topicpartition(record.topic(), 
record.partition()), new 
OffsetAndMetadata(record.offset()+1, "no metadata")); 

} 


consumer .commitAsync(currentOffsets, null); 
J 
} catch (WakeupException e) { 
// 名 略 异 常 ,正在 关闭 消费 者 
} catch (Exception e) { 
log.error("Unexpected error", e); 
} finally { 
try { 
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Consumer .commitSync(currentOffsets); 
} finally { 
consumer .close(); 
System.out.println("Closed consumer and we are done"); 
} 
} 
@ 首先 实现 ConsumerRebalanceListener 接口 。 
@ 在 获得 新 分 区 后 开始 读 取消 息 ， 不 需要 做 其 他 事情 。 
图 如 果 发 生 再 均衡 ， 我 们 要 在 即将 失去 分 区 所 有 权时 提交 偏 移 量 。 要 注意 ， 提 交 的 是 最 近 
处 理 过 的 偏 移 量 ， 而 不 是 批 次 中 还 在 处 理 的 最 后 一 个 偏 移 量 。 因 为 分 区 有 可 能 在 我 们 还 
在 处 理 消 息 的 时 候 被 撤回 。 我 们 要 提交 所 有 分 区 的 偏 移 量 ， 而 不 只 是 那些 即将 失去 所 有 
权 的 分 区 的 偏 移 量 一 一 因为 提交 的 偏 移 量 是 已 经 处 理 过 的 ， 所 以 不 会 有 什么 问题 。 调 用 
commitSync() 方法 ， 人 确保 在 再 均衡 发 生 之 前 提交 偏 移 量 。 
@ 把 ConsumerRebalanceListener 对 象 传 给 subscribe() 方法 ， 这 是 最 重要 的 一 步 。 


4.8 从 特定 偏 移 量 处 开始 处 理 记 录 


到 目前 为 止 ， 我 们 知道 了 如 何 使 用 poLL() 方法 从 各 个 分 区 的 最 新 偏 移 量 处 开始 处 理 消 息 。 
不 过 ， 有 时候 我 们 也 需要 从 特定 的 偏 移 量 处 开始 读 取消 息 。 


如 果 你 想 从 分 区 的 起 始 位 置 开 始 读 取 消息 ， 或 者 直接 跳 到 分 区 的 末尾 开始 读 取消 息 ， 可 以 使 
用 seekToBeginning(CoLLection<TopicPartition> tp) 和 seekToEnd(Collection<Topicpartition> 
tp) 这 两 个 方法 。 

不 过 ，Kafka 也 为 我 们 提供 了 用 于 查找 特定 偏 移 量 的 API。 它 有 很 多 用 途 ， 比 如 向 后 
几 个 消息 或 者 向 前 跳 过 几 个 销 息 〈 对 时 间 比 较 敏 感 的 应 用 程序 在 处 理 庇 后 的 情况 下 希望 
够 向 前 跳 过 若干 个 消息 )。 在 使 用 Kafka 以 外 的 系统 来 存储 偏 移 量 时 ， 它 将 给 我 们 带 来 更 
大 的 惊喜 。 

试想 一 下 这 样 的 场景 : 应 用 程序 从 Kafka 读 取 事 件 (可 能 是 网 站 的 用 户 点 击 事件 流 )， 对 
它们 进行 处 理 (可 能 是 使 用 自动 程序 清理 点 击 操作 并 添加 会 话 信息 )， 然 后 把 结果 保存 到 
数据 库 、NoSQL 存储 引擎 或 Hadoop。 假 设 我 们 真 的 不 想 丢 失 任何 数据 ， 也 不 想 在 数据 库 
里 多 次 保存 相同 的 结果 。 


这 种 情况 下 ， 消 费 者 的 代码 可 能 是 这 样 的 : 


while (true) { 
ConsumerRecords<String, String> records = consumer .poLL(100); 
for (ConsumerRecord<String, String> record : records) 


{ 
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currentOffsets.put(new Topicpartition(record.topic(), 
record.partition()), 

new OffsetAndMetadata(record.offset()+1); 
processRecord(record); 

storeRecordInDB(record); 

Consumer .commitAsync(currentOoffsets); 




















在 这 个 例子 里 ， 每 处 理 一 条 记录 就 提交 一 次 偏 移 量 。 尽 管 如 此 ， 在 记录 被 保存 到 数据 库 之 
后 以 及 偏 移 量 被 提交 之 前 ， 应 用 程序 仍然 有 可 能 发 生 崩溃 ， 导 致 重复 处 理 数据 ， 数 据 库 里 
就 会 出 现 重复 记录 。 

如 果 保 存 记录 和 偏 移 量 可 以 在 一 个 原子 操作 里 完成 ， 就 可 以 避免 出 现 上 述 情 况 。 记 录 和 偏 
移 量 要 么 都 被 成 功 提交 ， 要 么 都 不 提交 。 如 果 记 录 是 保存 在 数据 库 里 而 偏 移 量 是 提交 到 
Kafka 上 ， 那 么 就 无 法 实现 原子 操作 。 
不 过 ， 如 果 在 同一 个 事务 里 把 记录 和 偏 移 量 都 写 到 数据 库 里 会 怎样 呢 ? 那么 我 们 就 会 知道 
记录 和 偏 移 量 要 么 都 成 功 提交 ， 要 么 都 没有 ， 然 后 重新 处 理 记录 。 

现在 的 问题 是 : 如 果 偏 移 量 是 保存 在 数据 库 里 而 不 是 Kafka 里 ， 那 么 消费 者 在 得 到 新 分 区 
时 怎么 知道 该 从 哪里 开始 读 取 ? 这 个 时 候 可 以 使 用 seek() 方法 。 在 消费 者 启动 或 分 配 到 新 
分 区 时 ， 可 以 使 用 seek() 方法 查找 保存 在 数据 库 里 的 偏 移 量 。 

下 面 的 例子 大 致 说 明了 如 何 使 用 这 个 API。 使 用 ConsumerRebalanceListener 和 seek() 方 
法 确保 我 们 是 从 数据 库 里 保存 的 偏 移 量 所 指定 的 位 置 开始 处 理 消息 的 。 


public class SaveOffsetsOnRebalance implements 
ConsumerRebaLanceListener { 

















































































































public void onpartitionsRevoked(Collection<Topicpartition> 
partitions) { 
commitDBTransaction(); © 


J 


public void onpartitionsAssigned(Collection<Topicpartition> 
partitions) { 
for(Topicpartition partition: partitions) 
consumer .seek(partition, getOoffsetFromDB(partition)); @ 


} 


consumer .subscribe(topics, new SaveOffsetOnRebalance(consumer)); 
consumer .poll(0); 


for (Topicpartition partition: consumer.assignment()) 
consumer .seek(partition, getoffsetFromDB(partition)); © 


while (true) { 
ConsumerRecords<String, String> records = 
consumer .poll(100); 

for (ConsumerRecord<String, String> record : records) 

{ 
processRecord(record); 
storeRecordInDB(record); 
storeOffsetInDB(record.topic(), record.partition(), 

record.offset()); @ 


commitDBTransaction(); 
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@ 使 用 一 个 虚构 的 方法 来 提交 数据 库 事务 。 大 致 想法 是 这 样 的 : 在 处 理 完 记录 之 后 ， 将 记 
录 和 偏 移 量 插入 数据 库 ， 然 后 在 即将 失去 分 区 所 有 权 之 前 提交 事务 ， 确 保 成 功 保存 了 这 
些 信息 。 

名 使 用 另 一 个 虚构 的 方法 来 从 数据 库 获 取 偏 移 量 ， 在 分 配 到 新 分 区 的 时 候 ， 使 用 seek() 
方法 定位 到 那些 记录 。 

四 订阅 主题 之 后 ， 开 始 启动 消费 者 ， 我 们 调用 一 次 poLL() 方法 ， 让 消费 者 加 入 到 消费 者 
群 组 里 ， 并 获取 分 配 到 的 分 区 ， 然 后 马上 调用 seek( ) 方法 定位 分 区 的 偏 移 量 。 要 记 住 ， 
seek() 方法 只 更 新 我 们 正在 使 用 的 位 置 ， 在 下 一 次 调用 poLL() 时 就 可 以 获得 正确 的 消 
息 。 如 果 seek() 发 生 错误 (比如 偏 移 量 不 存在 )，pol1t() 就 会 抛 出 异常 。 

@ 另 一 个 虚构 的 方法 ， 这 次 要 更 新 的 是 数据 库 里 用 于 保存 偏 移 量 的 表 。 假 设 更 新 记录 的 速 
度 非 常 快 ， 所 以 每 条 记录 都 需要 更 新 一 次 数据 库 ， 但 提交 的 速度 比较 慢 ， 所 以 只 在 每 个 
批 次 末尾 提交 一 次 。 这 里 可 以 通过 很 多 种 方式 进行 优化 。 

通过 把 偏 移 量 和 记录 保存 到 同一 个 外 部 系统 来 实现 单 次 语义 可 以 有 很 多 种 方式 ， 不 过 它们 

都 需要 结合 使 用 ConsumerRebalanceListener 和 seek() 方法 来 确保 能 够 及 时 保存 偏 移 量 

并 保证 消费 者 总 是 能 够 从 正确 的 位 置 开始 读 取消 息 。 


4.9 如 何 退出 


在 之 前 讨论 轮 询 时 就 说 过 ， 不 需要 担心 消费 者 会 在 一 个 无 限 循 环 里 轮 询 消 息 ， 我 们 会 告诉 
消费 者 如 何 优雅 地 退出 循环 。 

如 果 确 定 要 退出 循环 ， 需 要 通过 另 一 个 线程 调用 consumer .wakeup() 方法 。 如 果 循 环 运行 
在 主线 程 里 ， 可 以 在 ShutdownHook 里 调用 该 方法 。 要 记 住 ，consumer.wakeup() 是 消费 者 
唯一 一 个 可 以 从 其 他 线程 里 安全 调用 的 方法 。 调 用 consumer .wakeup() 可 以 退出 poLL()， 
并 抛 出 WakeupException 异常 ， 或 者 如 果 调 用 consumer .wakeup() 时 线程 没有 等 待 轮 询 ， 那 
么 异常 将 在 下 一 轮 调 用 poLL() 时 抛 出 。 我 们 不 需要 处 理 WakeupException， 因 为 它 只 是 用 
于 跳出 循环 的 一 种 方式 。 不 过 ， 在 退出 线程 之 前 调用 consumer.ctose() 是 很 有 必要 的 ， 它 
会 提交 任何 还 没有 提交 的 东西 ， 并 向 群 组 协调 器 发 送 消 息 ， 告 知 自己 要 离开 群 组 ， 接 下 来 
就 会 触发 再 均衡 ， 而 不 需要 等 待 会 话 超时 。 


下 面 是 运行 在 主线 程 上 的 消费 者 退出 线程 的 代码 。 这 些 代码 经 过 了 简化 ， 你 可 以 在 这 里 查 
看 完整 的 代码 : http://bit.ly/2u47e9A。 


Runtime.getRuntime().addShutdownHook(new Thread() { 
public void run() { 
System.out.println("Starting exit..."); 
consumer .wakeup(); © 
try { 
mainThread. join(); 
} catch (InterruptedException e) { 
e.printStackTrace(); 


} 











































































































} 
站 





try { 





// 循环 ,直到 按 下 CtrL+(5 键 ,关闭 的 钧 子 会 在 退出 时 进行 清理 
while (true) { 
ConsumerRecords<String, String> records = 
movingAvg.consumer .poll(1000); 
System.out.println(System.currentTimeMillis() + " 


waiting for data..."); 
for (ConsumerRecord<String, String> record : 
records) { 


System.out.printf("offset = %d, key = %s, 
value = %s\n", 
record.offset(), record.key(), 
record.value()); 
} 
for (Topicpartition tp: consumer.assignment()) 
System.out.println("Committing offset at 
position:" + 
consumer .position(tp)); 
movingAvg.consumer .commitSync(); 


} catch (WakeupException e) { 
// 忽略 关闭 异常 人 
} finally { 
consumer .close(); © 
System.out.println("Closed consumer and we are done'"); 
} 
J 


@ shutdownHook 运行 在 单独 的 线程 里 ， 所 以 退出 循环 最 安全 的 方式 只 能 是 调用 wakeup() 
方法 。 

@ 在 另 一 个 线程 里 调用 wakeup() 方法 ， 导 致 poLL() 抛 出 WakeupException。 你 可 能 想 捕 获 
异常 以 确保 应 用 不 会 意外 终止 ， 但 实际 上 这 不 是 必需 的 。 

@ 在 退出 之 前 ， 确 保 彻 底 关 闭 了 消费 者 。 


4.10 ” 反 序 列 化 器 


在 之 前 的 章节 里 提 到 过 ， 生 产 者 需要 用 序列 化 器 把 对 象 转换 成 字 节 数组 再 发 送 给 Kafka。 
类 似 地 ， 消 费 者 需要 用 反 序列 化 器 把 从 Kafka 接收 到 的 字 节 数组 转换 成 Java 对 象 。 在 
前 面 的 例子 里 ， 我 们 假设 每 个 消息 的 键 值 对 都 是 字符 串 ， 所 以 我 们 使 用 了 默认 的 String 


Deserializer, 


在 上 一 章 讲解 Kafka 生产 者 的 时 候 ， 我 们 已 经 介绍 了 如 何 序 列 化 自 定 义 对 象 类 型 ， 以 及 如 
何 使 用 Avro 和 AvroSerializer 根据 定义 好 的 schema 生成 Avro 对 象 。 现 在 来 看 看 如 何 为 
对 象 自 定义 反 序列 化 器 ， 以 及 如 何 使 用 Avro 和 Avro 反 序列 化 器 。 


很 显然 ， 生 成 消息 使 用 的 序列 化 器 与 读 取 消息 使 用 的 反 序列 化 器 应 该 是 一 一 对 应 的 。 使 用 
IntSerializer 序列 化 ， 然 后 使 用 StringDeserializer 进行 反 序列 化 ， 会 出 现 不 可 预测 的 结果 。 
对 于 开发 者 来 说 ， 必 须知 道 写 入 主题 的 消息 使 用 的 是 哪 一 种 序列 化 器 ， 并 确保 每 个 主题 里 
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只 包含 能 够 被 反 序列 化 器 解析 的 数据 。 使 用 Avro 和 schema 注册 表 进 行 序列 化 和 反 序 列 化 
的 优势 在 于 : AvroSerializer 可 以 保证 写 入 主题 的 数据 与 主题 的 schema 是 兼容 的 ， 也 就 是 
说 ， 可 以 使 用 相应 的 反 序列 化 器 和 schema 来 反 序列 化 数据 。 另 外 ， 在 生产 者 或 消费 者 里 
出 现 的 任何 一 个 与 兼容 性 有 关 的 错误 都 会 被 捕捉 到 ， 它 们 都 带 有 消息 描述 ， 也 就 是 说 ,在 
出 现 序列 化 错误 时 ， 就 没 必 要 再 去 调试 字 节 数组 了 。 


尽管 不 建议 使 用 自 定义 的 反 序列 化 器 ， 我 们 仍然 会 简单 地 演示 如 何 自 定义 反 序列 化 器 ， 然 
后 再 举例 演示 如 何 使 用 Avro 来 反 序 列 化 消息 的 键 和 值 。 

1. 自 定义 反 序 列 化 器 

我 们 以 在 第 3 章 使 用 过 的 自 定 义 对 象 为 例 ， 为 它 写 一 个 反 序 列 化 器 


public class Customer { 
private int customerID; 
private String customerName; 




















public Customer(int ID, String name) { 
this.customerID = ID; 
this.customerName = name; 


} 


public int getID() { 
return customerID; 


} 


public String getName() { 
return customerName; 


} 
J 


自 定义 反 序列 化 器 看 起 来 是 这 样 的 : 


import org.apache.kafka.common.errors.SerializationException; 








import java.nio.ByteBuffer; 
import java.util.Map; 


public class CustomerDeserializer implements 
Deserializer<Custoner> { © 


@Override 
public void configure(Map configs, boolean isKey) { 


// 不 需要 做 任何 配置 
} 





@Override 
public Customer deserialize(String topic, byte[] data) { 


int id; 
int nameSize; 


String name; 


try { 
if (data == null) 





return null; 
if (data.Length < 8) 
throw new SerializationException("Size of data received by 
IntegerDeserializer is shorter than expected"); 


ByteBuffer buffer = ByteBuffer.wrap(data); 
id = buffer.getInt(); 
nameSize = buffer.getInt(); 


byte[] nameBytes = new byte[nameSize]; 
buffer .get(nameBytes ) ; 
name = new String(nameBytes, "UTF-8"); 


return new Customer(id, nane); @ 


} catch (Exception e) { 
throw new SerializationException("Error when serializing 
Customer 
to byte[] " + e); 
} 
} 


@Override 
public void close() { 
// 不 需要 关闭 任何 东西 
} 
} 


@ 消费 者 也 需要 使 用 Customer 类 ， 这 个 类 和 序列 化 器 在 生产 者 和 消费 者 应 用 程序 里 要 相 
互 匹配 。 在 一 个 大 型 的 企业 里 ， 会 有 很 多 消费 者 和 生产 者 共享 这 些 数据 ， 这 对 于 企业 来 
说 算是 一 个 挑战 。 

名 我 们 把 序列 化 器 的 逻辑 反 过 来 ， 从 字 市 数组 里 获取 customer ID 和 name， 再 用 它们 构建 
需要 的 对 象 。 


使 用 反 序列 化 器 的 消费 者 代码 看 起 来 是 这 相 


Properties props = new Properties(); 
props.put("bootstrap.servers", "broker1:9092,broker2:9092"); 
props.put("group.id", "CountryCounter"); 
props.put("key.deserializer", 
"org.apache.kafka.common.serialization.StringDeserializer"); 
props.put("value.deserializer", 
"org.apache.kafka.common.serialization.CustomerDeserializer"); 





tt 


的 : 





KafkaConsumer<String, Customer> consumer = 
new KafkaConsumer<>(props); 


consumer .subscribe(Collections.singletonList("customerCountries")) 


while (true) { 
ConsumerRecords<String, Customer> records = 
consumer .poll(100); 
for (ConsumerRecord<String, Customer> record : records) 
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System.out.printLn("current customer Id: 十 
record.vaLue().getID() + " and 
current customer name: " + record.value().getName()); 
} 

J 


再 强调 一 次 ， 我 们 并 不 建议 使 用 自 定义 序列 化 器 和 自 定义 反 序列 化 器 。 它 们 把 生产 者 和 消 
费 者 紧 紧 地 耦合 在 一 起 ， 并 且 很 脆弱 ， 容 易 出 错 。 我 们 建议 使 用 标准 的 消息 格式 ， 比 如 
JSON、Thrift、Protobuf 或 Avro。 接 下 来 ， 我 们 会 看 到 如 何在 消费 者 里 使 用 Avro 反 序 列 化 
器 。 可 以 回 到 第 3 章 查看 有 关 Avro 的 项 目 背 景 、schema 和 schema 的 兼容 能 


2. 在 消费 者 里 进行 Avro 反 序 列 化 


我 们 在 Avro 里 使 用 第 3 章 出 现 过 的 Customer 类 ， 为 了 读 取 这 些 对 象 ， 需 要 实现 一 个 类 似 
这 样 的 消费 者 应 用 程序 : 


Properties props = new Properties(); 
props.put("bootstrap.servers", "broker1:9092,broker2:9092"); 
props.put("group.id", "CountryCounter"); 
props.put("key.serializer", 
"org.apache.kafka.common.serialization.StringDeserializer"); 
props.put("value.serializer", 
"io.confluent.kafka.serializers.KafkaAvroDeserializer"); © 
props.put("schema.registry.url", schemaUrl); @ 
String topic = "customerContacts" 























KafkaConsumer consumer = new 
KafkaConsumer (createConsumerConfig(brokers,groupId, url)); 
consumer .subscribe(Collections.singletonList(topic)); 


System.out.println("Reading topic:" + topic); 


while (true) { 
ConsumerRecords<String, Customer> records = 
consumer .poll(1000); © 


for (ConsumerRecord<String, Customer> record: records) { 
System.out.println("Current customer name is: " + 
record.value().getNane()); @ 
} 


consumer .commitSync(); 


} 


@ 使 用 KafkaAvroDeserializer 来 反 序 列 化 Avro 消息 。 

@ schema.registry.url 是 一 个 新 的 参数 ， 它 指向 schema 的 存放 位 置 。 消 费 者 可 以 使 用 由 
生产 者 注册 的 schema 来 反 序 列 化 消息 。 

@ 将 生成 的 类 Customer 作为 值 的 类 型 。 

@@ record.value() 返回 的 是 一 个 Customer 实例 ， 接 下 来 就 可 以 使 用 它 了 。 





4.11 独立 消费 者 一 一 为 什么 以 及 怎样 使 用 没 
群 组 的 消费 者 


到 目前 为 止 ， 我们 讨论 了 消费 者 群 组 ,分 区 被 自动 分 配给 群 组 里 的 消费 者 ， 在 群 组 里 新 增 
或 移 除 消费 者 时 自动 触发 再 均衡 。 通 常情 况 下 ， 这 些 行为 刚好 是 你 所 需要 的 ， 不 过 有 时 候 
你 需要 一 些 更 简单 的 东西 。 比 如 ， 你 可 能 只 需要 一 个 消费 者 从 一 个 主题 的 所 有 分 区 或 者 茶 
个 特定 的 分 区 读 取 数据 。 这 个 时 候 就 不 需要 消费 者 群 组 和 再 均衡 了 ， 只 需要 把 主题 或 者 分 
区 分 配给 消费 者 ， 然 后 开始 读 取 消息 并 提交 偏 移 量 。 

如 果 是 这 样 的 话 ， 就 不 需要 订阅 主题 ， 取 而 代 之 的 是 为 自己 分 配 分 区 。 一 个 消费 者 可 以 订 
阅 主题 (并 加 入 消费 者 群 组 )， 或 者 为 自己 分 配 分 区 ， 但 不 能 同时 做 这 两 件 事情 。 


下 面 的 例子 演示 了 一 个 消费 者 是 如 何 为 自己 分 配 分 区 并 从 分 区 里 读 取消 息 的 : 


List<PpartitionInfo> partitionInfos = null; 
partitionInfos = consumer.partitionsFor("topic"); © 
























































也 














if (partitionInfos != nuLL) { 
for (PartitionInfo partition : partitionInfos) 
partitions.add(new Topicpartition(partition.topic(), 
partition.partition())); 
consumer .assign(partitions); © 


while (true) { 
ConsumerRecords<String, String> records = 
consumer .poll(1000); 


for (ConsumerRecord<String, String> record: records) { 
System.out.println("topic = %s, partition = %s, offset = %d, 
Customer = %s, country = %s\n", 
record.topic(), record.partition(), record.offset(), 
record.key(), record.value()); 


} 


consumer .commitSync(); 


} 
@ 向 集群 请 求 主题 可 用 的 分 区 。 如 果 只 打算 读 取 特定 分 区 ， 可 以 跳 过 这 一 步 。 
@ 知道 需要 哪些 分 区 之 后 ， 调 用 assign() 方法 。 
除了 不 会 发 生 再 均衡 ， 也 不 需要 手动 查找 分 区 ， 其 他 的 看 起 来 一 切 正常 。 不 过 要 记 住 ， 如 
果 主 题 增 加 了 新 的 分 区 ， 消 费 者 并 不 会 收 到 通知 。 所 以 ， 要 么 周期 性 地 调用 consumer . 
partitionsFor() 方法 来 检查 是 否 有 新 分 区 加 入 ， 要 么 在 添加 新 分 区 后 重启 应 用 程序 。 


4.12 旧版 的 消费 者 API 


我 们 在 这 一 章 讨 论 的 Java KafkaConsumer 客户 端 是 org.apache.kafka.clients 包 的 一 部 分 。 在 本 
书写 到 这 一 章 的 时 候 ，Kafka 还 有 两 个 旧版 本 的 Scala 消费 者 客户 端 ， 它 们 是 kafka.consumer 
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包 的 一 部 分 ， 属 于 Kafka 核心 模块 。 它 们 分 别 被 叫 作 simpleConsumer (简单 消费 者 ， 实 际 
上 也 不 是 那么 简单 ， 它 们 是 对 Kafka API 的 轻 度 包装 ， 可 以 用 于 从 特定 的 分 区 和 偏 移 量 开 
台 读 取消 息 ) 和 高 级 消费 者 。 高 级 消费 者 指 的 就 是 ZookeeperConsumerConnector， 它 有 点 
像 现 在 的 消费 者 ， 有 消费 者 群 组 ， 有 分 区 再 均衡 ， 不 过 它 使 用 Zookeeper 来 管理 消费 者 群 
组 ， 并 不 具备 提交 偏 移 量 和 再 均衡 的 可 操控 性 。 

因为 现在 的 消费 者 同时 支持 以 上 两 种 行为 ， 并 且 为 开发 人 员 提供 了 更 高 的 可 靠 性 和 可 操控 
性 ， 所 以 我 们 不 打算 讨论 旧版 API。 如 果 你 想 使 用 它们 ， 那 么 请 三 思 ， 如 果 确 定 要 使 用 ， 
可 以 从 Kafka 文档 中 了 解 更 多 的 信息 。 


4.13 ”总结 


我 们 在 本 章 开头 解释 了 Kafka 消费 者 群 组 概念 ， 消 费 者 群 组 支持 多 个 消费 者 从 主题 上 读 取 
消息 。 在 介绍 完 概 念 之 后 ， 我 们 又 给 出 了 一 个 消费 订阅 主题 并 持续 读 取消 息 的 例子 。 然 后 
介绍 了 一 些 重要 的 消费 者 配置 参数 以 及 它们 对 消费 者 行为 的 影响 。 我 们 用 一 大 部 分 内 容 解 
释 偏 移 量 以 及 消费 者 是 如 何 管理 偏 移 量 的 。 了 人 解 消 费 者 提交 偏 移 量 的 方式 有 助 更 好 地 使 用 
消费 者 客户 端 ， 所 以 我 们 介绍 了 儿 种 不 同 的 偏 移 量 提交 方式 。 然 后 又 探讨 了 消费 者 API 的 
其 他 话题 ， 比 如 如 何 处 理 再 均衡 以 及 如 何 关 闭 消 费 者 。 


最 后 ， 我 们 介绍 了 反 序列 化 器 ， 消 费 者 客户 端 使 用 反 序列 化 器 将 保存 在 Kafka 里 的 字 节 转 
换 成 应 用 程序 可 以 处 理 的 Java 对 象 。 我 们 主要 介绍 了 Avro 反 序 列 化 器 ， 虽 然 有 很 多 可 用 
的 反 序 列 化 器 ， 但 在 Kafka 里 ，Avro 是 最 为 常用 的 一 个 。 


现在 ， 我 们 已 经 知道 如 何 生成 和 读 取 Kafka 消息 ， 下 一 章 将 介绍 Kafka 内 部 的 实现 细节 。 








































































































如 果 只 是 为 了 开发 Kafka 应 用 程序 ， 或 者 只 是 在 生产 环境 使 用 Kafka， 那 么 了 解 Kafka 的 
内 部 工作 原理 不 是 必需 的 。 不 过 ， 了 解 Kafka 的 内 部 工作 原理 有 助 于 理解 Kafka 的 行为 ， 
也 有 助 于 诊断 问题 。 本 章 并 不 会 涵盖 Kafka 的 每 一 个 设计 和 实现 细节 ， 而 是 集中 讨论 以 下 
3 个 有 意思 的 话题 : 

。 Kafka 如 何 进 行 复制 ; 

。 Kafka 如 何 处 理 来 自生 产 者 和 消费 者 的 请 求 ; 

。 Kafka 的 存储 细节 ， 比 如 文件 格式 和 索引 。 

在 对 Kafka 进行 调 优 时 ， 这 入 理解 这 些 问 题 是 很 有 必要 的 。 了 解 了 内 部 机 制 ， 可 以 更 有 目 
的 性 地 进行 深入 的 调 优 ， 而 不 只 是 停留 在 表面 ， 隔 靳 报 痒 。 


5.1 集群 成 员 关 系 


Kafka 使 用 Zookeeper 来 维护 集群 成 员 的 信息 。 每 个 broker 都 有 一 个 唯一 标识 符 ， 这 个 
标识 符 可 以 在 配置 文件 里 指定 ， 也 可 以 自动 生成 。 在 broker 启动 的 时 候 ， 它 通过 创建 
临时 节点 把 自己 的 ID 注册 到 Zookeeper。Kafka 组 件 订 阅 Zookeeper 的 /brokers/ids 路 径 
(broker 在 Zookeeper 上 的 注册 路 径 ) ， 当 有 broker 加 入 集群 或 退出 集群 时 ， 这 些 组 件 就 
可 以 获得 通知 。 
如 果 你 要 启动 另 一 个 具有 相同 ID 的 broker， 会 得 到 一 个 错误 新 broker 会 试 着 进行 注 
册 ， 但 不 会 成 功 ， 因 为 Zookeeper 里 已 经 有 一 个 具有 相同 ID 的 broker。 

在 broker 停机 、 出 现 网 络 分 区 或 长 时 间 垃 圾 回收 停顿 时 ，broker 会 从 Zookeeper 上 断 开 连 
接 ， 此 时 broker 在 启动 时 创建 的 临时 节点 会 自动 从 Zookeeper 上 移 除 。 监 听 broker 列表 的 
Kafka 组 件 会 被 告知 该 broker 已 移 除 。 
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在 关闭 broker 时 ， 它 对 应 的 节点 也 会 消失 ， 不 过 它 的 ID 会 继续 存在 于 其 他 数据 结构 中 。 
例如 ， 主 题 的 副本 列表 (下面 会 介绍 ) 里 就 可 能 包含 这 些 ID。 在 完全 关闭 一 个 broker 之 
后 ， 如 果 使 用 相同 的 ID 启动 另 一 个 全 新 的 broker， 它 会 立即 加 入 集群 ， 并 拥有 与 旧 broker 
相同 的 分 区 和 主题 。 


5.2 控制 器 


控制 器 其 实 就 是 一 个 broker， 只 不 过 它 除 了 具有 一 般 broker 的 功能 之 外 ， 还 负责 分 区 
首领 的 选举 (我们 将 在 5.3 节 讨 论 分 区 首领 选举 )。 集 群 里 第 一 个 启动 的 broker 通过 在 
Zookeeper 里 创建 一 个 临时 节点 /controller 让 自己 成 为 控制 器 。 其 他 broker 在 启动 时 也 
会 尝试 创建 这 个 节点 ， 不 过 它们 会 收 到 一 个 “节点 已 存在 ”的 异常 ， 然 后 “意识 ”到 控制 
器 节点 已 存在 ， 也 就 是 说 集群 里 已 经 有 一 个 控制 器 了 。 其 他 broker 在 控制 器 节点 上 创建 
Zookeeper watch 对 象 ， 这 样 它们 就 可 以 收 到 这 个 节点 的 变更 通知 。 这 种 方式 可 以 确保 集群 
里 一 次 只 有 一 个 控制 器 存在 。 


如 果 控 制 器 被 关闭 或 者 与 Zookeeper 断 开 连接 ，Zookeeper 上 的 临时 节点 就 会 消失 。 集 群 
里 的 其 他 broker 通过 watch 对 象 得 到 控制 器 布点 消失 的 通知 ， 它 们 会 尝试 让 自己 成 为 新 的 
控制 器 。 第 一 个 在 Zookeeper 里 成 功 创建 控制 器 节点 的 broker 就 会 成 为 新 的 控制 器， 其 他 
节点 会 收 到 “节点 已 存在 ”的 异常 ， 然 后 在 新 的 控制 绒 节 点 上 再 次 创建 watch 对象 。 每 个 
新 选 出 的 控制 器 通过 Zookeeper 的 条 件 弟 增 操作 获得 一 个 侈 新 的 、 数 值 更 大 的 controller 
epoch。 其 他 broker 在 知道 当前 controller epoch 后 ， 如 果 收 到 由 控制 器 发 出 的 包含 较 旧 
epoch 的 消息 ， 就 会 忽略 它们 。 


当 控制 器 发 现 一 个 broker 已 经 离开 集群 (通过 观察 相关 的 Zookeeper 路 径 ) ， 它 就 知道 ， 那 
些 失去 首领 的 分 区 需要 一 个 新 首领 (这些 分 区 的 首领 刚好 是 在 这 个 broker 上 )。 控 制 器 遍 
历 这 些 分 区 ， 并 确定 谁 应 该 成 为 新 首领 (简单 来 说 就 是 分 区 副本 列表 里 的 下 一 个 副本 )， 
然后 向 所 有 包含 新 首领 或 现 有 跟随 者 的 broker 发 送 请 求 。 访 请求 消息 包含 了 谁 是 新 首领 以 
及 谁 是 分 区 跟随 者 的 信息 。 随 后 ， 新 首领 开始 处 理 来 自生 产 者 和 消费 者 的 请 求 ， 而 跟随 者 
开始 从 新 首领 那里 复制 消息 。 


当 控 制 器 发现 一 个 broker 加 入 集群 时 ， 它 会 使 用 broker ID 来 检查 新 加 入 的 broker 是 否 包 
含 现 有 分 区 的 副本 。 如 果 有 ， 控 制 器 就 把 变更 通知 发 送 给 新 加 入 的 broker 和 其 他 broker， 
新 broker 上 的 副本 开始 从 首领 那里 复制 消息 。 

简 而 言 之 ，Kafka 使 用 Zookeeper 的 临时 节 点 来 选举 控制 器 ， 并 在 节点 加 入 集群 或 退出 集 
群 时 通知 控制 器 。 探 制 器 负责 在 节点 加 入 或 离开 集群 时 进行 分 区 首领 选举 。 控 制 器 使 用 
epoch 来 避免 “ 脑 裂 * 。“ 脑 裂 ” 是 指 两 个 节点 同时 认为 自己 是 当前 的 控制 器 。 


5.3 复制 
复制 功能 是 Kafka 架构 的 核心 。 在 Kafka 的 文档 里 ，Kafka 把 自己 描述 成 “一 个 分 布 式 的 、 


可 分 区 的 、 可 复制 的 提交 日 志 服务 "。 复 制 之 所 以 这 么 关键 ， 是 因为 它 可 以 在 个 别 节点 失 
效 时 仍 能 保证 Kafka 的 可 用 性 和 持久 性 。 
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Kafka 使 用 主题 来 组 织 数 据 ， 每 个 主题 被 分 为 若干 个 分 区 ， 每 个 分 区 有 多 个 副本 。 那 些 副 

本 被 保存 在 broker 上 ， 每 个 broker 可 以 保存 成 百 上 千 个 属于 不 同 主题 和 分 区 的 副本 。 

副本 有 以 下 两 种 类 型 。 

首领 副本 
每 个 分 区 都 有 一 个 首领 副本 。 为 了 保证 一 臻 性， 所 有 生产 者 请 求 和 消费 者 请 求 都 会 经 过 
这 个 副本 。 

跟随 者 副本 

首领 以 外 的 副本 都 是 跟随 者 副本 。 跟 随 者 副本 不 处 理 来 自 客户 端的 请 求 ， 它 们 唯一 的 任 
务 就 是 从 首领 那里 复制 消息 ， 保 持 与 首领 一 致 的 状态 。 如 果 首 领 发 生 崩 涡 ， 其 中 的 一 个 
跟随 者 会 被 提升 为 新 首领 。 

首领 的 另 一 个 任务 是 搞 清 楚 哪 个 跟随 者 的 状态 与 自己 是 一 致 的 。 跟 随 者 为 了 保持 与 首领 的 

状态 一 致 ， 在 有 新 消息 到 达 时 尝试 从 首领 那里 复制 消息 ， 不 过 有 各 种 原因 会 导致 同步 失 

败 。 例 如 ， 网 络 拥塞 导致 复制 变 慢 ，broker 发 生 骨 涡 导致 复制 请 后 ， 直 到 重启 broker 后 复 

制 才 会 继续 。 

为 了 与 首领 保持 同步 ， 跟 随 者 向 首领 发 送 获 取 数 据 的 请 求 ， 这 种 请 求 与 消费 者 为 了 读 取消 

息 而 发 送 的 请 求 是 一 样 的 。 首 领 将 响应 消息 发 给 跟随 者 。 请 求 消 息 里 包含 了 跟随 者 想 要 获 

取消 息 的 偏 移 量 ， 而 且 这 些 偏 移 量 总 是 有 序 的 。 


一 个 跟随 者 副本 先 请 求 消 息 1， 接 着 请 求 消息 2， 然 后 请 求 消息 3， 在 收 到 这 3 个 请 求 的 响 
应 之 前 ， 它 是 不 会 发 送 第 4 个 请 求 消 息 的 。 如 果 跟 随 者 发 送 了 请 求 消息 4， 那 么 首领 就 知 
道 它 已 经 收 到 了 前 面 3 个 请 求 的 响应 。 通 过 查看 每 个 跟随 者 请 求 的 最 新 偏 移 量 ， 首 领 就 会 
知道 每 个 跟随 者 复制 的 进度 。 如 果 跟 随 者 在 10s 内 没有 请 求 任何 消息 ， 或 者 虽然 在 请 求 消 
息 ， 但 在 10s 内 没有 请 求 最 新 的 数据 ， 那 么 它 就 会 被 认为 是 不 同步 的 。 如 果 一 个 副本 无 法 
与 首领 保持 一 致 ， 在 首领 发 生 失 效 时 ， 它 就 不 可 能 成 为 新 首领 一 一 毕竟 它 设 有 包含 全 部 的 
消息 。 
相反 ， 持 续 请 求 得 到 的 最 新 消息 副本 被 称 为 同步 的 副本 。 在 首领 发 生 失效 时 ， 只 有 同步 副 
本 才 有 可 能 被 选 为 新 首领 。 

跟随 者 的 正常 不 活跃 时 间或 在 成 为 不 同步 副本 之 前 的 时 间 是 通过 replica. lag.time.max.ms 
参数 来 配置 的 。 这 个 时 间 间 隔 直接 影响 着 首领 选举 期 间 的 客户 端 行为 和 数据 保留 机 制 。 我 
们 将 在 第 6 章 讨论 可 靠 性 保证 ， 到 时 候 会 深入 讨论 这 个 问题 。 

除了 当前 首领 之 外 ， 每 个 分 区 都 有 一 个 首选 首领 一 一 创建 主题 时 选 定 的 首领 就 是 分 区 的 首 
选 首领 。 之 所 以 把 它 叫 作 首选 首领 ， 是 因为 在 创建 分 区 时 ， 需 要 在 broker 之 间 均 衡 首领 
(后 面 会 介绍 在 broker 间 分 布 副本 和 首领 的 算法 )。 因 此 ， 我 们 希望 首选 首领 在 成 为 真正 的 
首领 时 ，broker 间 的 负载 最 终 会 得 到 均衡 。 默 认 情 况 下 ，Kafka 的 auto.leader.rebalance. 
enable 被 设 为 true， 它 会 检查 首选 首领 是 不 是 当前 首领 ， 如 果 不 是 ， 并 且 该 副本 是 同步 
的 ， 那 么 就 会 触发 首领 选举 ， 让 首选 首领 成 为 当前 首领 。 
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找到 首选 首领 


从 分 区 的 副本 清单 里 可 以 很 容易 找到 首选 首领 (可 以 使 用 kafka.topics.sh 工 
有 具 查看 副本 和 分 区 的 详细 信息 ， 我 们 将 在 第 10 章 介 绍 管理 工具 )。 清 单 里 的 
第 一 个 副本 一 般 就 是 首选 首领 。 不 管 当前 首领 是 哪 一 个 副本 ， 都 不 会 改变 这 
个 事实 ， 即 使 使 用 副本 分 配 工具 将 副本 重新 分 配给 其 他 broker。 要 记 住 ， 如 
果 你 手动 进行 副本 分 配 ， 第 一 个 指定 的 副本 就 是 首选 首领 ， 所 以 要 确保 首选 
首领 被 传播 到 其 他 broker 上 ， 避 免 让 包含 了 首领 的 broker 负载 过 重 ， 而 其 他 
broker 却 无 法 为 它们 分 担负 载 。 




























































































5.4 处 理 请 求 


broker 的 大 部 分 工作 是 处 理 客户 端 、 分 区 副本 和 控制 器 发 送 给 分 区 首领 的 请 求 。Kafka 提 
供 了 一 个 二 进 制 协议 (基于 TCP)， 指 定 了 请 求 消息 的 格式 以 及 broker 如 何 对 请 求 作出 
响应 一 一 包括 成 功 处 理 请 求 或 在 处 理 请 求 过 程 中 遇 到 错误 。 客 户 端 发 起 连接 并 发 送 请 求 ， 
broker 处 理 请 求 并 作出 响应 。broker 按照 请 求 到 达 的 顺序 来 处 理 它们 一 一 这 种 顺序 保证 让 
Kafka 具有 了 消息 队列 的 特性 ， 同 时 保证 保存 的 消息 也 是 有 序 的 。 


所 有 的 请 求 消 息 都 包含 一 个 标准 消息 头 : 


。 Request type (也 就 是 API key) 
。 Request version (broker 可 以 处 理 不 同 版 本 的 客户 端 请 求 ， 并 根据 客户 端 版 本 作出 不 同 
的 响应 ) 
。 Correlation ID 个 具有 唯一 性 的 数字 ， 用 于 标识 请 求 消息 ， 同 时 也 会 出 现在 响应 消 
息 和 错误 日 志 里 (用 于 诊断 问题 ) 
。 Client ID 一 一 用 于 标识 发 送 请 求 的 客户 端 
我 们 不 打算 在 这 里 描述 该 协议 ， 因 为 在 Kafka 文档 里 已 经 有 很 详细 的 说 明 。 不 过 ， 了 解 
broker 如 何 处 理 请 求 还 是 有 必要 的 一 一 后 面 在 我 们 讨论 Kafka 监控 和 各 种 配置 选项 时 ， 你 
就 会 了 解 到 那些 与 队列 和 线程 有 关 的 度量 指标 和 配置 参数 。 
broker 会 在 它 所 监听 的 每 一 个 端口 上 运行 一 个 Acceptor 线程 ， 这 个 线程 会 创建 一 个 连接 ， 
并 把 它 交 给 Processor 线程 去 处 理 。Processor 线程 (也 被 叫 作 “网 络 线程 ”) 的 数量 是 可 
配置 的 。 网 络 线程 负责 从 客户 端 获 取 请 求 消息 ， 把 它们 放 进 请 求 队 列 ， 然 后 从 响应 队列 获 
取 响 应 消息 ， 把 它们 发 送 给 客户 端 。 图 5-1 为 Kafka 处 理 请 求 的 内 部 流程 。 
请 求 消息 被 放 到 请 求 队列 后 ，IO 线程 会 负责 处 理 它们 。 下 面 是 几 种 最 常见 的 请 求 类 型 。 
生产 请 求 
生产 者 发 送 的 请 求 ， 它 包含 客户 端 要 写 入 broker 的 消息 。 
获取 请 求 
在 消费 者 和 跟随 者 副本 需要 从 broker 读 取消 息 时 发 送 的 请 求 。 





























































































































请 求 队列 
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图 5-1: Kafka 处 理 请 求 的 内 部 流程 


生产 请 求 和 获取 请 求 都 必须 发 送 给 分 区 的 首领 副本 。 如 果 broker 收 到 一 个 针对 特定 分 区 的 
请 求 ， 而 该 分 区 的 首领 在 另 一 个 broker 上 ， 那 么 发 送 请 求 的 客户 端 会 收 到 一 个 “ 非 分 区 
首领 ”的 错误 响应 。 当 针对 特定 分 区 的 获取 请 求 被 发 送 到 一 个 不 含有 该 分 区 首领 的 broker 
上 ， 也 会 出 现 同样 的 错误 。Kafka 客户 端 要 自己 负责 把 生产 请 求 和 获取 请 求 发 送 到 正确 的 
broker 上 。 


那么 客户 端 怎 么 知道 该 往 哪 里 发 送 请 求 呢 ? 客户 端 使 用 了 另 一 种 请 求 类 型 ， 也 就 是 元 数据 
请 求 。 这 种 请 求 包含 了 客户 端 感 兴 趣 的 主题 列表 。 服 务 器 端的 响应 消息 里 指明 了 这 些 主题 
所 包含 的 分 区 、 每 个 分 区 都 有 哪些 副本 ， 以 及 哪个 副本 是 首领 。 元 数据 请 求 可 以 发 送 给 任 
意 一 个 broker， 因 为 所 有 broker 都 缓存 了 这 些 信息 。 

一 般 情况 下 ， 客 户 端 会 把 这 些 信息 缓存 起 来 ， 并 直接 往 目 标 broker 上 发 送 生产 请 求 和 
获取 请 求 。 它 们 需要 时 不 时 地 通过 发 送 元 数据 请 求 来 刷新 这 些 信息 (刷新 的 时 间 间 隔 通 
过 metadata.max.age.ms 参数 来 配置 )， 从 而 知道 元 数据 是 否 发 生 了 变更 比如 ， 在 新 
broker 加 入 集群 时 ， 部 分 副本 会 被 移动 到 新 的 broker 上 (如 图 5-2 所 示 )。 另 外 ， 如 果 客 户 
端 收 到 “ 非 首领 ”错误 ， 它 会 在 尝试 重 发 请 求 之 前 先 刷新 元 数据 ， 因 为 这 个 错误 说 明了 客 
户 端正 在 使 用 过 期 的 元 数据 信息 ， 之 前 的 请 求 被 发 到 了 错误 的 broker 上 。 



















































































任意 broker 





区 0 的 生产 者 请 求 
回 给 生产 者 的 向 应 (确认 ) 
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5-2: 客户 端 路 由 请 求 
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5.4.1 生产 请 求 


我 们 在 第 3 章 讨论 如 何 配置 生产 者 的 时 候 ， 提 到 过 acks 这 个 配置 参数 一 一 该 参数 指定 了 需 

要 多 少 个 broker 确认 才 可 以 认为 一 个 消息 写 人 是 成 功 的 。 不 同 的 配置 对 “ 写 入 成 功 ”的 界 

定 是 不 一 样 的 ， 如 果 acks=1， 那 么 只 要 首领 收 到 消息 就 认为 写 入 成 功 ， 如 果 acks=aLL， 那 

么 需要 所 有 同步 副本 收 到 消息 才 算 写 入 成 功 ， 如 果 acks=0， 那 么 生产 者 在 把 消息 发 出 去 之 

后 ， 完 全 不 需要 等 待 broker 的 响应 。 

包含 首领 副本 的 broker 在 收 到 生产 请 求 时 ， 会 对 请 求 做 一 些 验 证 。 

。 发 送 数据 的 用 户 是 否 有 主题 写 和 权限? 

。 请 求 里 包含 的 acks 值 是 否 有 效 〈 只 人 允许 出 现 9、1 或 aLL) ? 

。 如 果 acks=aLL， 是 否 有 足够 多 的 同步 副本 保证 消息 已 经 被 安全 写 入 ? (我 们 可 以 对 
broker 进行 配置 ， 如 果 同 步 副本 的 数量 不 足 ，broker 可 以 拒绝 处 理 新 消息 。 在 第 6 章 介 
绍 Kafka 持久 性 和 可 靠 性 保证 时 ， 我 们 会 讨论 更 多 这 方面 的 细节 。) 


之 后 ， 消 息 被 写 人 本 地 磁盘 。 在 Linux 系统 上 ， 消 息 会 被 写 到 文件 系统 缓存 里 ， 并 不 保证 
它们 何 时 会 被 刷新 到 磁盘 上 。Kafka 不 会 一 直 等 待 数 据 被 写 到 磁盘 上 一 一 它 依 赖 复制 功能 
来 保证 消息 的 持久 性 。 

在 消息 被 写 入 分 区 的 首领 之 后 ，broker 开始 检查 acks 配置 参数 一 一 如 果 acks 被 设 为 6 或 1， 
那么 broker 立即 返回 响应 ， 如 果 acks 被 设 为 atL， 那 么 请 求 会 被 保存 在 一 个 叫 作 炼狱 的 缓冲 
区 里 ， 直 到 首领 发 现 所 有 跟随 者 副本 都 复制 了 消息 ， 响 应 才 会 被 返回 给 客户 端 。 


5.4.2 ”获取 请 求 


broker 处 理 获取 请 求 的 方式 与 处 理 生 产 请 求 的 方式 很 相似 。 客 户 端 发 送 请 求 ， 向 broker 请 
求 主题 分 区 里 具有 特定 偏 移 量 的 消息 ， 好 像 在 说 :“ 请 把 主题 Test 分 区 0 偏 移 量 从 53 开始 
的 消息 以 及 主题 Test 分 区 3 偏 移 量 从 64 开始 的 消息 发 给 我 。 客户 端 还 可 以 指定 broker 最 
多 可 以 从 一 个 分 区 里 返回 多 少数 据 。 这 个 限制 是 非常 重要 的 ， 因 为 客户 端 需要 为 broker 返 
回 的 数据 分 配 足够 的 内 存 。 如 果 没 有 这 个 限制 ，broker 返回 的 大 量 数据 有 可 能 耗 尽 客户 端 
的 内 存 。 

我 们 之 前 讨论 过 ， 请 求 需要 先 到 达 指 定 的 分 区 首领 上 ， 然 后 客户 端 通过 查询 元 数据 来 确保 
请 求 的 路 由 是 正确 的 。 首 领 在 收 到 请 求 时 ， 它 会 先 检查 请 求 是 否 有 效 比如 ， 指 定 的 偏 
移 量 在 分 区 上 是 否 存在 ?如 果 客 户 端 请 求 的 是 已 经 被 删除 的 数据 ， 或 者 请 求 的 偏 移 量 不 存 
在 ， 那 么 broker 将 返回 一 个 错误 。 


如 果 请 求 的 偏 移 量 存在 ，broker 将 按照 客户 端 指定 的 数量 上 限 从 分 区 里 读 取消 息 ， 再 把 消 
息 返 回 给 客户 端 。Kafka 使 用 零 复制 技术 向 客户 端 发 送 消息 一 一 也 就 是 说 ，Kafka 直接 把 消 
息 从 文件 (或 者 更 确切 地 说 是 Linux 文件 系统 缓存 ) 里 发 送 到 网 络 通道 ， 而 不 需要 经 过 任 
何 中 间 缓冲 区 。 这 是 Kafka 与 其 他 大 部 分 数据 库 系统 不 一 样 的 地 方 ， 其 他 数据 库 在 将 数据 
发 送 给 客户 端 之 前 会 先 把 它们 保存 在 本 地 缓存 里 。 这 项 技术 避免 了 字 节 复制 ， 也 不 需要 管 
里 内 存 缓冲 区 ， 从 而 获得 更 好 的 性 能 。 
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客户 端 除了 可 以 设置 broker 返回 数据 的 上 限 ， 也 可 以 设置 下 限 。 例 如 ， 如 果 把 下 限 设 置 为 
10KB ， 就 好 像 是 在 告诉 broker:“ 等 到 有 10KB 数据 的 时 候 再 把 它们 发 送 给 我 。 在 主题 消 
息 流 量 不 是 很 大 的 情况 下 ， 这 样 可 以 减少 CPU 和 网 络 开销 。 客 户 端 发 送 一 个 请 求 ，broker 
等 到 有 足够 的 数据 时 才 把 它们 返回 给 客户 端 ， 然 后 客户 端 再 发 出 请 求 ， 而 不 是 让 客户 端 每 
隔 几 毫秒 就 发 送 一 次 请 求 ， 每 次 只 能 得 到 很 少 的 数据 甚至 没有 数据 。( 如 图 5-3 所 示 。) 对 
比 这 两 种 情况 ， 它 们 最 终 读 取 的 数据 总 量 是 一 样 的 ， 但 前 者 的 来 回 传送 次 数 更 少 ， 因 此 开 
销 也 更 小 。 















































图 5-3: broker 延迟 作出 响应 以 便 累 积 足够 的 数据 





当然 ， 我 们 不 会 让 客户 端 一 直 等 待 broker 累积 数据 。 在 等 待 了 一 段 时 间 之 后 ， 就 可 以 把 
可 用 的 数据 拿 回 处 理 ， 而 不 是 一 直 等 待 下 去 。 所 以 ， 客 户 端 可 以 定义 一 个 超时 时 间 ， 告 
诉 broker:“ 如 果 你 无 法 在 毫秒 内 累积 满足 要 求 的 数据 量 ， 那 么 就 把 当前 这 些 数 据 返 回 
给 我 。 

有 意思 的 是 ， 并 不 是 所 有 保存 在 分 区 首领 上 的 数据 都 可 以 被 客户 端 读 取 。 大 部 分 客户 端 只 
能 读 取 已 经 被 写 人 所 有 同步 副本 的 消息 (跟随 者 副本 也 不 行 ， 尽 管 它们 也 是 消费 者 一 一 否 
则 复制 功能 就 无 法 工作 )。 分 区 首领 知道 每 个 消息 会 被 复制 到 哪个 副本 上 ， 在 消息 还 没有 
被 写 入 所 有 同步 副本 之 前 ， 是 不 会 发 送 给 消费 者 的 一 一 尝试 聊 取 这 些 消息 的 请 求 会 得 到 空 
的 响应 而 不 是 错误 。 

因为 还 没有 被 足够 多 副本 复制 的 消息 被 认为 是 “不 安全 ”的 一 一 如 果 首 领 发 生 崩 涡 ， 男 一 
个 副本 成 为 新 首领 ， 那 么 这 些 消息 就 丢失 了 。 如 果 我 们 允许 消费 者 读 取 这 些 消 息 ， 可 能 就 
会 破坏 一 臻 性。 试想， 一 个 消费 者 读 取 并 处 理 了 这 样 的 一 个 消息 ， 而 男 一 个 消费 者 发 现 这 
个 消息 其 实 并 不 存在 。 所 以 ， 我 们 会 等 到 所 有 同步 副本 复制 了 7 这些 消 息 ， 才 允许 消费 者 读 
取 它 们 (如 图 5-4 所 示 )。 这 也 意味 着 ， 如 果 broker 间 的 消息 复制 因为 某 些 原因 变 慢 ， 那 
么 消息 到 达 消 费 者 的 时 间 也 会 随 之 变 长 (因为 我 们 会 先 等 待 消 息 复制 完毕 )。 延 迟 时 间 可 
以 通过 参数 replica.lag.time.max.ms 来 配置 ， 它 指定 了 副本 在 复制 消息 时 可 被 允许 的 最 大 
延迟 时 间 。 
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消费 者 只 能 看 


到 这 些 消息 














5-4: 消费 者 只 能 看 到 已 经 复制 到 ISR 的 消息 


5.4.3 ”其 他 请 求 


到 此 为 止 ， 我 们 讨论 了 Kafka 最 为 常见 的 几 种 请 求 类 型 : 元 数据 请 求 、 生 产 请 求 和 获取 
请 求 。 重 要 的 是 ， 我 们 讨论 的 是 客户 端 在 网 络 上 使 用 的 通用 二 进 制 协 议 。Kafka 内 置 了 由 
开源 社区 贡献 者 实现 和 维护 的 Java 客户 端 ， 同 时 也 有 用 其 他 语言 实现 的 客户 端 ， 如 C、 
Python、Go 语言 等 。Kafka 网 站 上 有 它们 的 完整 清单 ， 这 些 客户 端 就 是 使 用 这 个 二 进 制 协 
议 与 broker 通信 的 。 


另外 ，broker 之 间 也 使 用 同样 的 通信 协议 。 它 们 之 间 的 请 求 发 生 在 Kafka 内 部 ， 客 户 端 不 
应 该 使 用 这 些 请 求 。 例 如 ， 当 一 个 新 首领 被 选举 出 来 ， 控 制 器 会 发 送 LeaderAndIsr 请 求 给 
新 首领 (这样 它 就 可 以 开始 接收 来 自 客户 端的 请 求 ) 和 跟随 者 (这样 它们 就 知道 要 开始 跟 
随 新 首领 )。 

在 我 们 写 这 本 书 的 时 候 ，Kafka 协议 可 以 处 理 20 种 不 同类 型 的 请 求 ， 而 且 会 有 更 多 的 类 
型 加 入 进来 。 协 议 在 持续 演化 一 一 随 着 客户 端 功 能 的 不 断 增 加 ， 我 们 需要 改进 协议 来 满足 
需求 。 例 如 ， 之 前 的 Kafka 消费 者 使 用 Zookeeper 来 跟踪 偏 移 量 ， 在 消费 者 启动 的 时 候 ， 
它 通 过 检查 保存 在 Zookeeper 上 的 偏 移 量 就 可 以 知道 从 哪里 开始 处 理 消息 。 因 为 各 种 原 
因 ， 我 们 决定 不 再 使 用 Zookeeper 来 保存 偏 移 量 ， 而 是 把 偏 移 量 保存 在 特定 的 Kafka 主题 
上 。 为 了 达到 这 个 目的 ， 我 们 不 得 不 往 协议 里 增加 几 种 请 求 类 型 ; 0ffsetCommitRequest、 
OffsetFetchRequest 和 ListoffsetsRequest。 现 在 ， 在 应 用 程序 调用 commitoffset() 方法 
时 ， 客 户 端 不 再 把 偏 移 量 写 入 Zookeeper， 而 是 往 Kafka 发 送 0ffsetCommitRequest 请 求 。 


主题 的 创建 仍然 需要 通过 命令 行 工具 来 完成 ， 命 令 行 工 具 会 直接 更 新 Zookeeper 里 的 主题 
列表 ，broker 监听 这 些 主题 列表 ， 在 有 新 主题 加 入 时 ， 它 们 会 收 到 通知 。 我 们 正在 改进 
Kafka， 增 加 了 CreateTopicRequest 请 求 类 型 ， 这 样 客户 端 (包括 那些 不 支持 Zookeeper 客 
户 端的 编程 语言 ) 就 可 以 直接 向 broker 请 求 创建 新 主题 了 。 


除了 往 协 议 里 增加 新 的 请 求 类 型 外 ， 我 们 也 会 通过 修改 已 有 的 请 求 类 型 来 给 它们 增加 新 功 
能 。 例 如 ， 从 Kafka 0.9.0 到 Kafka 0.10.0， 我 们 希望 能 够 让 客户 端 知道 谁 是 当前 的 控制 器 ， 
于 是 把 控制 器 信息 添加 到 元 数据 响应 消息 里 。 我 们 还 在 元 数据 请 求 消 息 和 响应 消息 里 添加 了 
一 个 新 的 version 字段 。 现 在 ，0.9.0 版 本 的 客户 端 发 送 的 元 数据 请 求 里 version 为 0 (0.9.0 版 
本 客户 端的 version 不 会 是 1)。 不 管 是 0.9.0 版 本 的 broker， 还 是 0.10.0 版 本 的 broker， 它 们 
都 知道 应 该 返回 version 为 0 的 响应 ， 也 就 是 不 包含 控制 器 信息 的 响应 。0.9.0 版 本 的 客户 端 




















































































































80 | 第 5 章 


不 需要 控制 器 的 信息 ， 而 且 也 没 必要 知道 如 何 去 解 析 它 。0.10.0 版 本 的 客户 端 会 发 送 version 
为 1 的 元 数据 请 求 ，0.10.0 版 本 的 broker 会 返回 version 为 1 的 响应 ， 里 面包 含 了 控制 器 的 
信息 。 如 果 0.10.0 版 本 的 客户 端 发 送 version 为 1 的 请 求 给 0.9.0 版 本 的 broker， 这 个 版 本 的 
broker 不 知道 该 如 何 处 理 这 个 请 求 ， 就 会 返回 一 个 错误 。 这 就 是 为 什么 我 们 建议 在 升级 客户 
端 之 前 先 升级 broker， 因 为 新 的 broker 知道 如 何 处 理 旧 的 请 求 ， 反 过 来 则 不 然 。 

我 们 在 0.10.0 版 本 的 Kafka 里 加 入 了 ApiVersionRequest 客户 端 可 以 询问 broker 支持 哪 
些 版 本 的 请 求 ， 然 后 使 用 正确 的 版 本 与 broker 通信 。 如 果 能 够 正确 使 用 这 个 新 功能 ， 客 户 
端 就 可 以 与 旧版 本 的 broker 通信 ， 只 要 broker 支持 这 个 版 本 的 协议 。 


5.5 物理 存储 


Kafka 的 基本 存储 单元 是 分 区 。 分 区 无 法 在 多 个 broker 间 进 行 再 细 分 ， 也 无 法 在 同一 个 
broker 的 多 个 磁盘 上 进行 再 细 分 。 所 以 ， 分 区 的 大 小 受到 单个 挂 载 点 可 用 空间 的 限制 (一 
个 挂 载 点 由 单个 磁盘 或 多 个 磁盘 组 成 ， 如 果 配 置 了 JBOD， 就 是 单个 磁盘 ， 如 果 配 置 了 
RAID， 就 是 多 个 磁盘 。 请 参考 第 2 章 )。 

在 配置 Kafka 的 时 候 ， 管 理 员 指 定 了 一 个 用 于 存储 分 区 的 目录 清单 一 一 也 就 是 Log.dirs 参 
数 的 值 (不 要 把 它 与 存放 错误 日 志 的 目录 混 消 了 ， 日 志 目 录 是 配置 在 log4j.properties 文件 
里 的 ) 。 该 参数 一 般 会 包含 每 个 挂 载 点 的 目录 。 


接 下 来 我 们 会 介绍 Kafka 是 如 何 使 用 这 些 目录 来 存储 数据 的 。 首 先 ， 我 们 要 知道 数据 是 如 
何 被 分 配 到 集群 的 broker 上 以 及 broker 的 目录 里 的 。 然 后 ， 我 们 还 要 知道 broker 是 如 何 管 
理 这 些 文件 的 ， 特 别 是 如 何 进 行 数据 保留 的 。 随 后 ， 我 们 会 深入 探讨 文件 和 索引 格式 。 最 
后 ， 我 们 会 讨论 日 志 压 缩 及 其 工作 原理 。 日 志 压 缩 是 Kafka 的 一 个 高 级 特性 ， 因 为 有 了 这 
个 特性 ，Kafka 可 以 用 来 长 时 间 地 保存 数据 。 


5.5.1 分 区 分 配 


在 创建 主题 时 ，Kafka 首先 会 决定 如 何在 broker 间 分 配 分 区 。 假 设 你 有 6 个 broker， 打 算 
创建 一 个 包含 10 个 分 区 的 主题 ， 并 且 复 制 系数 为 3。 那 么 Kafka 就 会 有 30 个 分 区 副本 ， 
它们 可 以 被 分 配给 6 个 broker。 在 进行 分 区 分 配 时 ， 我 们 要 达到 如 下 的 目标 。 


。 在 broker 间 平 均 地 分 布 分 区 副本 。 对 于 我 们 的 例子 来 说 ， 就 是 要 保证 每 个 broker 可 以 
分 到 5 个 副本 。 

。 确保 每 个 分 区 的 每 个 副本 分 布 在 不 同 的 broker 上 。 假设 分 区 0 的 首领 副本 在 broker 2 上 ， 
那么 可 以 把 跟随 者 副本 放 在 broker 3 和 broker 4 上 ， 但 不 能 放 在 broker 2 上 ， 也 不 能 
个 都 放 在 broker 3 上 。 

。 如 果 为 broker 指定 了 机 架 信 息 ， 那 么 尽 可 能 把 每 个 分 区 的 副本 分 配 到 不 同 机 架 的 broker 
上 上。 这样 做 是 为 了 保证 一 个 机 架 的 不 可 用 不 会 导致 整体 的 分 区 不 可 用 。 

为 了 实现 这 个 目标 ， 我 们 先 随机 选择 一 个 broker (假设 是 4)， 然 后 使 用 轮 询 的 方式 给 每 

个 broker 分 配 分 区 来 确定 首领 分 区 的 位 置 。 于 是 ， 首 领 分 区 0 会 在 broker 4 上 ， 首 领 分 区 

1 会 在 broker 5 上， 首领 分 区 2 会 在 broker 0 上 (只 有 6 个 broker)， 并 以 此 类 推 。 然 后 ， 
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我 们 从 分 区 首领 开始 ， 依 次 分 配 跟 随 者 副本 。 如 果 分 区 0 的 首领 在 broker 4 上， 那么 它 的 
第 一 个 跟随 者 副本 会 在 broker 5 上， 第 二 个 跟随 者 副本 会 在 broker 0 上。 分 区 1 的 首领 在 
broker gs 上 ， 那 么 它 的 第 一 个 跟随 者 副本 在 broker 0 上 ， 第 二 个 跟随 者 副本 在 broker 1 上 。 


如 果 配 置 了 机 架 信息 ， 那 么 就 不 是 按照 数字 顺序 来 选择 broker 了 ， 而 是 按照 交替 机 架 的 方式 
来 选择 broker。 假 设 broker 0、broker 1 和 broker 2 放置 在 同一 个 机 架 上 ，broker 3、broker 4 
和 broker 5 分 别 放置 在 其 他 不 同 的 机 架 上 。 我 们 不 是 按照 从 0 到 5 的 顺序 来 选择 broker， 而 
是 按照 0 3，1，4，2，5 的 顺序 来 选择 ， 这 样 每 个 相 邻 的 broker 都 在 不 同 的 机 架 上 (如 图 
5-5 所 示 )。 于 是 ， 如 果 分 区 0 的 首领 在 broker 4 上 ， 和 那么 第 一 个 跟随 者 副本 会 在 broker 2 上 ， 
这 两 个 broker 在 不 同 的 机 架 上 。 如 果 第 一 个 机 架 下 线 ， 还 有 其 他 副本 仍然 活跃 着 ， 所 以 分 区 
仍然 可 用 。 这 对 所 有 副本 来 说 都 是 一 样 的 ， 因 此 在 机 架 下 线 时 仍然 能 够 保证 可 用 性 。 
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broker0 














5-5: 分 配给 不 同 机 架 broker 的 分 区 和 副本 


为 分 区 和 副本 选 好 合适 的 broker 之 后 ， 接 下 来 要 决定 这 些 分 区 应 该 使 用 哪个 目录 。 我 们 单 
独 为 每 个 分 区 分 配 目录 ， 规 则 很 简单 :计算 每 个 目录 里 的 分 区 数量 ， 新 的 分 区 总 是 被 添加 
到 数量 最 小 的 那个 目录 里 。 也 就 是 说 ， 如 果 添 加 了 一 个 新 磁盘 ， 所 有 新 的 分 区 都 会 被 创建 
到 这 个 磁盘 上 。 因 为 在 完成 分 配 工 作 之 前 ， 新 磁盘 的 分 区 数量 总 是 最 少 的 。 

注意 磁盘 空间 

要 注意 ， 在 为 broker 分 配 分 区 时 并 没有 考虑 可 用 空间 和 工作 负载 问题 ， 但 在 
将 分 区 分 配 到 磁盘 上 时 会 考虑 分 区 数量 ， 不 过 不 考虑 分 区 大 小 。 也 就 是 说 ， 
如 果 有 些 broker 的 磁盘 空间 比 其 他 broker 要 大 (有 可 能 是 因为 集群 同时 使 
用 了 旧 服 务 器 和 新 服务 器 )， 有 些 分 区 异常 大 ， 或 者 同一 个 broker 上 有 大 小 
不 同 的 磁盘 ， 那 么 在 分 配 分 区 时 要 格外 小 心 。 在 后 面 的 章节 中 ， 我 们 会 讨论 
Kafka 管理 员 该 如 何 解决 这 种 broker 负载 不 均衡 的 问题 。 










































































5.5.2 ”文件 管理 

保留 数据 是 Kafka 的 一 个 基本 特性 ，Kafka 不 会 一 直 保 留 数据 ， 也 不 会 等 到 所 有 消费 者 都 
读 取 了 消息 之 后 才 删 除 消息 。 相 反 ，Kafka 管理 员 为 每 个 主题 配置 了 数据 保留 期 限 ， 规 定 
数据 被 删除 之 前 可 以 保留 多 长 时 间 ， 或 者 清理 数据 之 前 可 以 保留 的 数据 量 大 小 。 
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因为 在 一 个 大 文件 里 查找 和 删除 消息 是 很 费时 的 ， 也 很 容易 出 错 ， 所 以 我 们 把 分 区 分 成 若 
干 个 片段 。 默 认 情 况 下 ， 每 个 片段 包含 1GB 或 一 周 的 数据 ， 以 较 小 的 那个 为 准 。 在 broker 
往 分 区 写 入 数据 时 ， 如 果 达 到 片段 上 限 ， 就 关闭 当前 文件 ， 并 打开 一 个 新 文件 。 


当前 正在 写 入 数据 的 片段 叫 作 活跃 片段 。 活 动 片段 永远 不 会 被 删除 ， 所 以 如 果 你 要 保留 数 
据 1 天 ,但 片段 里 包含 了 5 天 的 数据 ， 那 么 这 些 数据 会 被 保留 5 天 ， 因 为 在 片段 被 关闭 之 
前 这 些 数据 无 法 被 删除 。 如 果 你 要 保留 数据 一 周 ， 而 且 每 天 使 用 一 个 新 片段 ， 那 么 你 就 会 
看 到 ， 每 天 在 使 用 一 个 新 片段 的 同时 会 删除 一 个 最 老 的 片段 一 一 所 以 大 部 分 时 间 该 分 区 会 
有 7 个 片段 存在 。 


我 们 在 第 2 章 讲 过 ，broker 会 为 分 区 里 的 每 个 片段 打开 一 个 文件 句柄 ， 哪 怕 片 段 是 不 活跃 
的 。 这 样 会 导致 打开 过 多 的 文件 句柄 ， 所 以 操作 系统 必须 根据 实际 情况 做 一 些 调 优 。 


5.5.3 文件 格式 


我 们 把 Kafka 的 消息 和 偏 移 量 保存 在 文件 里 。 保 存在 磁盘 上 的 数据 格式 与 从 生产 者 发 送 过 
来 或 者 发 送 给 消费 者 的 消息 格式 是 一 样 的 。 因 为 使 用 了 相同 的 消息 格式 进行 磁盘 存储 和 网 
络 传输 ，Kafka 可 以 使 用 零 复制 技术 给 消费 者 发 送 消 息 ， 同 时 避免 了 对 生产 者 已 经 压缩 过 
的 消息 进行 解压 和 再 压缩 。 


除了 键 、 值 和 偏 移 量 外 ， 消 息 里 还 包含 了 消息 大 小 、 校 验 和 、 消 息 格 式 版 本 号 、 压 缩 算法 
(Snappy、GZip 或 LZ4) 和 时 间 惟 (在 0.10.0 版 本 里 引入 的 )。 时 间 惟 可 以 是 生产 者 发 送 背 
息 的 时 间 ， 也 可 以 是 消息 到 达 broker 的 时 间 ， 这 个 是 可 配置 的 。 

如 果 生 产 者 发 送 的 是 压缩 过 的 消息 ， 那 么 同一 个 批 次 的 消息 会 被 压缩 在 一 起 ， 被 当 作 “ 包 
装 消息 ”进行 发 送 (如 图 5-6 所 示 )。 于 是 ，broker 就 会 收 到 一 个 这 样 的 消息 ， 然 后 再 把 它 
发 送 给 消费 者 。 消 费 者 在 解压 这 个 消息 之 后 ， 会 看 到 整个 批 次 的 消息 ， 它 们 都 有 自己 的 时 
间 戳 和 偏 移 量 。 


键 的 值 的 
本 竹本 四 轩 因 攻 










































































压缩 键 的 值 的 
er a em 
se , 键 的 值 的 
偏 移 量 | 隆 术 数 | 压 缩 和 解压 | 时 间 维 | 值 的 [ppslexs a [wm | 
相关 | 压缩 问号 | 刍 的 值 的 
| 和 解压 大 小 大 小 


包装 消息 包含 了 
3 个 压缩 过 的 消息 














图 5-6: 普通 消息 和 包装 消息 


也 就 是 说 ， 如 果 在 生产 者 端 使 用 了 压缩 功能 (极力 推荐 )， 那 么 发 送 的 批 次 越 大 ， 就 意味 
着 在 网 络 传输 和 磁盘 存储 方面 会 获得 越 好 的 压缩 性 能 ， 同 时 意味 着 如 果 修 改 了 消费 者 使 用 
的 消息 格式 〈 例 如 ， 在 消息 里 增加 了 时 间 戳 )， 那 么 网 络 传输 和 磁盘 存储 的 格式 也 要 随 之 
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修改 ， 而 且 broker 要 知道 如 何 处 理 包 含 了 两 种 消息 格式 的 文件 。 

Kafka 附带 了 一 个 叫 DumpLogSegment 的 工具 ， 可 以 用 它 查 看 片段 的 内 容 。 它 可 以 显示 每 

个 消息 的 偏 移 量 、 校 验 和 、 魔 术 数 字 市 、 消 息 大 小 和 压缩 算法 。 运 行 该 工具 的 方法 如 下 : 
bin/kafka-run-class.sh kafka.tools.DumpLogSegments 


如 果 使 用 了 --deep-iteration 参数 ， 可 以 显示 被 压缩 到 包装 消息 里 的 消息 。 


5.5.4 索引 


消费 者 可 以 从 Kafka 的 任意 可 用 偏 移 量 位 置 开始 读 取消 息 。 假 设 消费 者 要 读 取 从 偏 移 量 100 
开始 的 1MB 消息 ， 那 么 broker 必须 立即 定位 到 偏 移 量 100 (可 能 是 在 分 区 的 任意 一 个 片段 
里 )， 然 后 开始 从 这 个 位 置 读 取消 息 。 为 了 帮助 broker 更 快 地 定位 到 指定 的 偏 移 量 ，Kafka 
为 每 个 分 区 维护 了 一 个 索引 。 索 引 把 偏 移 量 映射 到 片段 文件 和 偏 移 量 在 文件 里 的 位 置 。 
索引 也 被 分 成 片段 ， 所 以 在 删除 消息 时 ， 也 可 以 删除 相应 的 索引 。Kafka 不 维护 索引 的 
校 验 和 。 如 果 索 引出 现 损坏 ，Kafka 会 通过 重新 读 取消 息 并 录制 偏 移 量 和 位 置 来 重新 生 
成 索引 。 如 果 有 必要 ， 管 理 员 可 以 删除 索引 ， 这 样 做 是 绝对 安全 的 ，Kafka 会 自动 重新 
生成 这 些 索 引 。 





















































5.5.5 ”清理 


一 般 情况 下 ，Kafka 会 根据 设置 的 时 间 保 留 数据 ， 把 超过 时 效 的 旧 数 据 删 除 掉 。 不 过 ， 试 
想 一 下 这 样 的 场景 ， 如 果 你 使 用 Kafka 保存 客户 的 收 货 地 址 ， 那 么 保存 客户 的 最 新 地 址 比 
保存 客户 上 周 甚 至 去 年 的 地 址 要 有 意义 得 多 ， 这 样 你 就 不 用 担心 会 用 错 旧 地 址 ， 而 且 短 时 
间 内 客户 也 不 会 修改 新 地 址 。 另 外 一 个 场景 ， 一 个 应 用 程序 使 用 Kafka 保存 它 的 状态 ， 每 
次 状态 发 生变 化 ， 它 就 把 状态 写 入 Kafka。 在 应 用 程序 从 骨 溃 中 恢复 时 ， 它 从 Kafka 读 取 
消息 来 恢复 最 近 的 状态 。 在 这 种 情况 下 ， 应 用 程序 只 关心 它 在 崩溃 前 的 那个 状态 ， 而 不 关 
心 运 行 过 程 中 的 那些 状态 。 

Kafka 通过 改变 主题 的 保留 策略 来 满足 这 些 使 用 场景 。 早 于 保留 时 间 的 旧事 件 会 被 删除 ， 
为 每 个 键 保 留 最 新 的 值 ， 从 而 达到 清理 的 效果 。 很 显然 ， 只 有 当 应 用 程序 生成 的 事件 里 
包含 了 键 值 对 时 ， 为 这 些 主题 设置 compact 策略 才 有 意义 。 如 果 主 题 包含 null 键 ， 清 理 
就 会 失败 。 


5.5.6 清理 的 工作 原理 
每 个 日 志 片 段 可 以 分 为 以 下 两 个 部 分 。 






























































干净 的 部 分 
这 些 消息 之 前 被 清理 过 ， 每 个 键 只 有 一 个 对 应 的 值 ， 这 个 值 是 上 一 次 清理 时 保留 下 来 的 。 
污浊 的 部 分 

















这 些 消 息 是 在 上 一 次 清理 之 后 写 入 的 。 
两 个 部 分 的 日 志 片 段 示意 如 图 5-7 所 示 。 
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这 一 部 分 是 “干净 ”的 ， 这 部 分 是 日 志 的 
注意 这 里 缺失 了 一 些 “污浊 "部 分 ， 稍 
偏 移 量 ， 它 们 是 被 清 后 会 被 清理 。 
理 掉 了 。 











图 5-7: 包含 干 兆 和 污浊 两 个 部 分 的 分 区 


如 果 在 Kafka 启动 时 启用 了 清理 功能 (通过 配置 log.cleaner .enabled 参数 ) ， 每 个 broker 
会 启动 一 个 清理 管理 器 线程 和 多 个 清理 线程 ， 它 们 负责 执行 清理 任务 。 这 些 线程 会 选择 污 
总 率 (污浊 消息 占 分 区 总 大 小 的 比例 ) 较 高 的 分 区 进行 清理 。 
为 了 清理 分 区 ， 清 理 线程 会 读 取 分 区 的 污浊 部 分 ， 并 在 内 存 里 创建 一 个 map。map 里 的 
每 个 元 素 包 含 了 消息 键 的 散 列 值 和 消息 的 偏 移 量 ， 键 的 散 列 值 是 16B， 加 上 偏 移 量 总 共 是 
24B。 如 果 要 清理 一 个 1GB 的 日 志 片 段 ， 并 假设 每 个 消息 大 小 为 IKB ， 那 么 这 个 片段 就 包 

含 一 百 万 个 消息 ， 而 我 们 只 需要 用 24MB 的 map 就 可 以 清理 这 个 片段 。( 如 果 有 重复 的 键 ， 
可 以 重用 散 列 项 ， 从 而 使 用 更 少 的 内 存 。) 这 是 非常 高 效 的 ! 


管理 员 在 配置 Kafka 时 可 以 对 map 使 用 的 内 存 大 小 进行 配置 。 每 个 线程 都 有 自己 的 map， 
而 这 个 参数 指 的 是 所 有 线程 可 使 用 的 内 存 总 大 小 。 如 果 你 为 map 分 配 了 1GB 内 存 ， 并 使 
用 了 5 个 清理 线程 ， 那 么 每 个 线程 可 以 使 用 200MB 内 存 来 创建 自 map。Kafka 并 不 要 
求 分 区 的 整个 污浊 部 分 来 适应 这 个 map 的 大 小 ， 但 要 求 至 少 有 一 个 完整 的 片段 必须 符合 。 

如 果 不 符合 ， 那 么 Kafka 就 会 报错 ， 管 理 员 要 么 4 要 么 减少 清理 线程 数 
量 。 如 果 只 有 少 部 分 片 展 可 以 完全 符合 守 合 ，Kafka 将 从 最 旧 的 片段 开始 清理 ， 等 待 下 一 次 清 
理 剩余 的 部 分 


Wp die een 把 
它们 的 内 容 与 map 里 的 内 容 进行 比 对 。 会 检查 消息 的 键 是 否 存 在 于 map 中 ， 如 有 果 不 存在 ， 
那么 说 明 消息 的 值 是 最 新 的 ， 就 把 消息 复制 到 蔡 换 片段 上 。 如 果 键 已 存在 ， 消 息 会 被 忽略 ， 
因为 在 分 区 的 后 部 已 经 有 一 个 具有 相同 键 的 消息 存在 。 在 复制 完 所 有 的 消息 之 后 ， 我 们 就 将 
替换 片段 与 原始 片段 进行 交换 ， 然 后 开始 清理 下 一 个 片段 。 完 成 整个 清理 过 程 之 后 ， 每 个 键 
对 应 一 个 不 同 的 消息 一 一 这 些 消息 的 值 都 是 最 新 的 。 清 理 前 后 的 分 区 片段 如 图 5-8 所 示 。 
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5-8: 清理 前 后 的 分 区 片段 
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5.5.7 ”被 删除 的 事件 


如 果 只 为 每 个 键 保留 最 近 的 一 个 消息 ， 那 么 当 需 要 删除 某 个 特定 键 所 对 应 的 所 有 消息 时 ， 
我 们 该 怎么 办 ? 这 种 情况 是 有 可 能 发 生 的 ， 比 如 一 个 用 户 不 再 使 用 我 们 的 服务 ， 那 么 完全 
可 以 把 与 这 个 用 户 相 关 的 所 有 信息 从 系统 中 删除 。 


为 了 彻底 把 一 个 键 从 系统 里 删除 ， 应 用 程序 必须 发 送 一 个 包含 该 键 且 值 为 null 的 消息 。 清 
时 线程 发 现 该 消息 时 ， 会 先进 行 常 规 的 清理 ， 只 保留 值 为 null 的 销 息 。 该 消息 〈 被 称 为 墓 
碑 消息 ) 会 被 保留 一 段 时 间 ， 时 间 长 短 是 可 配置 的 。 在 这 期 间 ， 消 费 者 可 以 看 到 这 个 医 碑 
消息 ， 并 且 发 现 它 的 值 已 经 被 删除 。 于 是 ， 如 果 消 费 者 往 数 据 库 里 复制 Kafka 的 数据 ， 当 
它 看 到 这 个 墓碑 消息 时 ， 就 知道 应 该 要 把 相关 的 用 户 信 息 从 数据 库 里 删除 。 在 这 个 时 间 段 
过 后 ， 清 理 线程 会 移 除 这 个 墓碑 消息 ， 这 个 键 也 将 从 Kafka 分 区 里 消失 。 重 要 的 是 ， 要 留 
给 消费 者 足够 多 的 时 间 ， 让 他 看 到 墓碑 消息 ， 因 为 如 果 消费 者 离线 儿 个 小 时 并 错过 了 墓碑 
消息 ， 就 看 不 到 这 个 键 ， 也 就 不 知道 它 已 经 从 Kafka 里 删除 ， 从 而 也 就 不 会 去 删除 数据 库 
里 的 相关 数据 了 。 


5.5.8 何 时 会 清理 主题 


就 像 delete 策略 不 会 删除 当前 活跃 的 片段 一 样 ，compact 策略 也 不 会 对 当前 片段 进行 清理 。 
只 有 旧 片 段 里 的 消息 才 会 被 清理 。 


在 0.10.0 和 更 早 的 版 本 里 ，Kafka 会 在 包含 脏 记 录 的 主题 数量 达到 50% 时 进行 清理 。 这 样 
做 的 目的 是 避免 太 过 频繁 的 清理 (因为 清理 会 影响 主题 的 读 写 性 能 )， 同 时 也 避免 存在 太 
多 脏 记录 (因为 它们 会 占用 磁盘 空间 )。 浪 费 50% 的 磁盘 空间 给 主题 存放 脏 记 录 ， 然 后 进 
行 一 次 清理 ， 这 是 个 合理 的 折 中 ， 管 理 员 也 可 以 对 它 进行 调整 。 

我 们 计划 在 未 来 的 版 本 中 加 入 宽 限期 ， 在 宽 限 期 内 ， 我 们 保证 消息 不 会 被 清理 。 对 于 想 看 
到 主题 的 每 个 消息 的 应 用 程序 来 说 ， 它 们 就 有 了 足够 的 时 间 ， 即 使 时 间 有 点 澡 后 。 


5.9 总 结 


我 们 无 法 在 这 一 章 里 涵盖 所 有 的 内 容 ， 但 希望 大 家 能 够 对 我 们 在 这 个 项 目 上 所 做 的 设计 和 
优化 有 所 了 解 ， 同 时 本 章 也 为 大 家 解释 了 在 使 用 Kafka 时 可 能 磁 到 的 一 些 罗 次 难 懂 的 现象 
和 参数 配置 问题 。 

如 果 大 家 真 的 对 Kafka 内 部 原理 感 兴趣 ， 唯 一 的 途径 是 阅读 它 的 源 代码 。Kafka 开发 者 邮 
件 组 (dev@kafka.apache.org) 是 一 个 非常 友好 的 社区 ， 在 那里 会 有 人 回答 有 关 Kafka 工作 
原理 的 问题 。 或 许 你 在 陪读 源 代码 时 还 能 够 修复 一 些 缺 陷 一 一 开源 社区 的 大 门 总 是 向 贡献 
者 敞开 。 
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第 6 章 


可 年 的 数据 传递 





对 于 系统 来 说， 可 靠 的 数据 传递 不 能 成 为 马后炮 。 与 性 能 一 样 ， 在 系统 的 设计 之 初 就 应 该 
考虑 可 靠 性 问题 ， 而 不 能 在 事后 才 来 考虑 。 而 且 ， 可 靠 性 是 系统 的 一 个 属性 ， 而 不 是 一 
个 独立 的 组 件 ， 所 以 在 讨论 Kafka 的 可 靠 性 保证 时 ， 还 是 要 从 系统 的 整体 出 发 。 说 到 可 靠 
性 ， 那 些 与 Kafka 集成 的 系统 与 Kafka 本 身 一 样 重要 。 正 因为 可 靠 性 是 系统 层面 的 概念 ， 
所 以 它 不 只 是 某 个 个 体 的 事情 。Kafka 管理 员 、Linux 系统 管理 员 、 网 络 和 存储 管理 员 以 及 
应 用 程序 开发 者 ， 所 有 人 必须 协同 作战 ， 才 能 构建 一 个 可 靠 的 系统 。 


Kafka 在 数据 传递 可 靠 性 方面 具备 很 大 的 灵活 性 。 我 们 知道 ，Kafka 可 以 被 用 在 很 多 场景 
里 ， 从 跟踪 用 户 点 击 动作 到 处 理 信 用 卡 支付 操作 。 有 些 场景 要 求 很 高 的 可 靠 性 ， 而 有 些 则 
更 看 重 速度 和 简便 性 。Kafka 被 设计 成 高 度 可 配置 的 ， 而 且 它 的 客户 端 API 可 以 满足 不 同 
程度 的 可 靠 性 需求 。 

不 过 ， 灵 活性 有 时 候 也 很 容易 让 人 掉 入 陷阱 。 有 时 候 ， 你 的 系统 看 起 来 是 可 靠 的 ， 但 实 
际 上 有 可 能 不 是 。 本 章 先 讨论 各 种 各 样 的 可 靠 性 及 其 在 Kafka 场景 中 的 含义 。 然 后 介绍 
Kafka 的 复制 功能 ， 以 及 它 是 如 何 提 高 系统 可 靠 性 的 。 随 后 探讨 如 何 配 置 Kafka 的 broker 
和 主题 来 满足 不 同 的 使 用 场景 需求 ， 也 会 涉及 生产 者 和 消费 者 以 及 如 何在 各 种 可 靠 性 场景 
里 使 用 它们 。 最 后 介绍 如 何 验 证 系统 的 可 靠 性 ， 因 为 系统 的 可 靠 性 涉及 方方面面 一 一 一 些 
前 提 条 件 必须 先 得 到 满足 。 


+ 4 
6.1 可 靠 性 保证 
在 讨论 可 靠 性 时 ， 我 们 一 般 会 使 用 保证 这 个 词 ， 它 是 指 确保 系统 在 各 种 不 同 的 环境 下 能 够 
发 生 一 致 的 行为 。 
ACID 大 概 是 大 家 最 熟悉 的 一 个 例子 ， 它 是 关系 型 数据 库 普遍 支持 的 标准 可 靠 性 保证 。 
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ACID 指 的 是 原子 性 、 一 致 性 、 隔 离 性 和 持久 性 。 如 果 一 个 供应 商 说 他 们 的 数据 库 遵 循 
ACID 规范 ， 其 实 就 是 在 说 他 们 的 数据 库 支 持 与 事务 相关 的 行为 。 

有 了 这 些 保证 ， 我 们 才能 相信 关系 型 数据 库 的 事务 特性 可 以 确保 应 用 程序 的 安全 。 我 们 知 
道 系统 承诺 可 以 做 到 些 什么 ， 也 知道 在 不 同 条 件 下 它们 会 发 生 怎样 的 行为 。 我 们 了 解 这 些 
保证 机 制 ， 并 基于 这 些 保证 机 制 开发 安全 的 应 用 程序 。 


所 以 ， 了 解 系统 的 保证 机 制 对 于 构建 可 靠 的 应 用 程序 来 说 至 关 重 要 ， 这 也 是 能 够 在 不 同 条 
件 下 解释 系统 行为 的 前 提 。 那 么 Kafka 可 以 在 哪些 方面 作出 保证 呢 ? 


。 Kafka 可 以 保证 分 区 消息 的 顺序 。 如 果 使 用 同一 个 生产 者 往 同 一 个 分 区 写 和 人 消息， 而 且 
消息 B 在 消息 A 之 后 写 人 ,那么 Kafka 可 以 保证 消息 B 的 偏 移 量 比 消息 A 的 偏 移 量 大 ， 
而 且 消 费 者 会 先 读 取 消息 A 再 读 取消 息 B。 

。 只 有 当 消 息 被 写 人 分 区 的 所 有 同步 副本 时 (但 不 一 定 要 写 入 磁盘 )， 它 才 被 认为 是 “已 
提交 ”的 。 生 产 者 可 以 选择 接收 不 同类 型 的 确认 ， 比 如 在 消息 被 完全 提交 时 的 确认 ， 或 
者 在 消息 被 写 人 首领 副本 时 的 确认 ， 或 者 在 消息 被 发 送 到 网 络 时 的 确认 。 

。 只 要 还 有 一 个 副本 是 活跃 的 ， 那 么 已 经 提交 的 消息 就 不 会 丢失 。 

。 消费 者 只 能 读 取 已 经 提交 的 消息 。 

这 些 基本 的 保证 机 制 可 以 用 来 构建 可 靠 的 系统 ， 但 仅仅 依赖 它们 是 无 法 保证 系统 完全 可 靠 

的 。 构 建 一 个 可 靠 的 系统 需要 作出 一 些 权衡 ，Kafka 管理 员 和 开发 者 可 以 在 配置 参数 上 作 

出 权衡 ， 从 而 得 到 他 们 想 要 达到 的 可 靠 性 。 这 种 权衡 一 般 是 指 消息 存储 的 可 靠 性 和 一 致 性 

的 重要 程度 与 可 用 性 、 高 吞吐 量 、 低 延迟 和 硬件 成 本 的 重要 程度 之 间 的 权衡 。 下 面 将 介绍 

Kafka 的 复制 机 制 ， 并 探讨 Kafka 是 如 何 实现 可 靠 性 的 ， 最 后 介绍 一 些 重要 的 配置 参数 。 


6.2 复制 


Kafka 的 复制 机 制 和 分 区 的 多 副本 架构 是 Kafka 可 靠 性 保证 的 核心 。 把 消息 写 入 多 个 副本 

可 以 使 Kafka 在 发 生 崩 涡 时 仍 能 保证 消息 的 持久 性 。 

我 们 已 经 在 第 5 章 深 入 解释 了 Kafka 的 复制 机 制 ， 现 在 重新 回顾 一 下 主要 内 容 。 

Kafka 的 主题 被 分 为 多 个 分 区 ， 分 区 是 基本 的 数据 块 。 分 区 存储 在 单个 磁盘 上 ，Kafka 可 以 

保证 分 区 里 的 事件 是 有 序 的 ， 分 区 可 以 在 线 (可用)， 也 可 以 离线 (不 可 用 )。 每 个 分 区 可 

以 有 多 个 副本 ， 甚 中 一 个 副本 是 首领 。 所 有 的 事件 都 直接 发 送 给 首领 副本 ， 或 者 直接 从 首 

领 副 本 读 取 事 件 。 其 他 副本 只 需要 与 首领 保持 同步 ， 并 及 时 复制 最 新 的 事件 。 当 首领 副本 

不 可 用 时 ， 甚 中 一 个 同步 副本 将 成 为 新 首领 。 

分 区 首领 是 同步 副本 ， 而 对 于 跟随 者 副本 来 说 ， 它 需要 满足 以 下 条 件 才 能 被 认为 是 同步 的 。 

。 与 Zookeeper 之 间 有 一 个 活跃 的 会 话 ， 也 就 是 说 ， 它 在 过 去 的 6s (可 配置 ) 内 向 
Zookeeper 发 送 过 心跳 。 

。 在 过 去 的 10s 内 (可 配置 ) 从 首领 那里 获取 过 消息 。 

。 在 过 去 的 10s 内 从 首领 那里 获取 过 最 新 的 消息 。 光 从 首领 那里 获取 消息 是 不 够 的 ， 它 还 
必须 是 几乎 零 延 迟 的 。 

















































































































如 果 跟 随 者 副本 不 能 满足 以 上 任何 一 点 ， 比 如 与 Zookeeper 断 开 连 接 ， 或 者 不 再 获取 新 消 
息 ， 或 者 获取 消息 王后 了 10s 以 上 ， 那 么 它 就 被 认为 是 不 同步 的 。 一 个 不 同步 的 副本 通过 
与 Zookeeper 重新 建立 连接 ， 并 从 首领 那里 获取 最 新 消息 ， 可 以 重新 变 成 同步 的 。 这 个 过 
程 在 网 络 出 现 临 时 间 题 并 很 快 得 到 修复 的 情况 下 会 很 快 完成 ， 但 如 果 broker 发 生 崩 溃 就 需 
要 较 长 的 时 间 。 

非 同 步 副 本 

如 果 一 个 或 多 个 副本 在 同步 和 非 同 步 状态 之 间 快 速 切换 ， 说 明 集群 内 部 出 现 

了 问题 ， 通 常 是 Java 不 恰当 的 垃圾 回收 配置 导致 的 。 不 恰当 的 垃圾 回收 配置 

会 造成 几 秒 钟 的 停顿 ， 从 而 让 broker 与 Zookeeper 之 间断 开 连 接 ， 最 后 变 成 

不 同步 的 ， 进 而 发 生 状 态 切 换 。 









































一 个 滞后 的 同步 副本 会 导致 生产 者 和 消费 者 变 慢 ， 因 为 在 消息 被 认为 已 提交 之 前 ， 客 户 端 
会 等 待 所 有 同步 副本 接收 消息 。 而 如 果 一 个 副本 不 再 同步 了 ， 我 们 就 不 再 关心 它 是 否 已 经 
收 到 消息 。 虽 然 非 同步 副本 同样 灌 后 ， 但 它 并 不 会 对 性 能 产生 任何 影响 。 但 是 ， 更 少 的 同 
步 副 本 意味 着 更 低 的 有 效 复制 系数 ， 在 发 生 宕 机 时 丢失 数据 的 风险 更 大 。 


我 们 将 在 下 一 节 讲 解 在 实际 项 目 中 这 将 意味 着 什么 。 


6.3 broker 配 置 


broker 有 3 个 配置 参数 会 影响 Kafka 消息 存储 的 可 靠 性 。 与 其 他 配置 参数 一 样 ， 它 们 可 以 
应 用 在 broker 级 别 ， 用 于 控制 所 有 主题 的 行为 ， 也 可 以 应 用 在 主题 级 别 ， 用 于 控制 个 别 主 
题 的 行为 。 

在 主题 级 别 控制 可 靠 性 ， 意 味 着 Kafka 集群 可 以 同时 拥有 可 靠 的 主题 和 非 可 靠 的 主题 。 例 
如 ， 在 银行 里 ， 管 理 员 可 能 把 整个 集群 设置 为 可 靠 的， 但 把 其 中 的 一 个 主题 设置 为 非 可 靠 
的 ， 用 于 保存 来 自 客户 的 投诉 ， 因 为 这 些 消息 是 允许 丢失 的 。 


让 我 们 来 逐个 介绍 这 些 配置 参数 ， 看 看 它们 如 何 影 响 消 息 存储 的 可 靠 性 ， 以 及 Kafka 在 哪 
些 方面 作出 了 权衡 。 


6.3.1 复制 系数 


主题 级 别 的 配置 参数 是 replication.factor， 而 在 broker 级 别 则 可 以 通过 default. 
replication.factor 来 配置 自动 创建 的 主题 。 


在 这 本 书 里 ， 我 们 假设 主题 的 复制 系数 都 是 3， 也 就 是 说 每 个 分 区 总 共 会 被 3 个 不 同 的 
broker 复制 3 次。 这 样 的 假设 是 合理 的 ， 因 为 Kafka 的 默认 复制 系数 就 是 3 一 一 不 过 用 户 
可 以 修改 它 。 即 使 是 在 主题 创建 之 后 ， 也 可 以 通过 新 增 或 移 除 副本 来 改变 复制 系数 。 

如 有 果 复 制 系数 为 Y， 那 么 在 N-1 个 broker 失效 的 情况 下 ， 仍 然 能 够 从 主题 读 取 数据 或 向 主 
题写 和 数据。 所 以 ， 更 高 的 复制 系数 会 带 来 更 高 的 可 用 性 、 可 靠 性 和 更 少 的 故障 。 另 一 方 
面 ,复制 系数 入 需要 至 少 NN 个 broker， 而 且 会 有 NN 个 数据 副本 ， 也 就 是 说 它们 会 占用 入 
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倍 的 磁盘 空间 。 我 们 一 般 会 在 可 用 性 和 存储 硬件 之 间作 出 权衡 。 


那么 该 如 何 确定 一 个 主题 需要 几 个 副本 呢 ? 这 要 看 主题 的 重要 程度 ， 以 及 你 愿意 付出 多 少 
成 本 来 换取 可 用 性 。 有 时 候 这 与 你 的 偏执 程度 也 有 点 关系 。 

如 果 因 broker 重启 导致 的 主题 不 可 用 是 可 接受 的 (这 在 集群 里 是 很 正常 的 行为 )， 那 么 把 
复制 系数 设 为 1 就 可 以 了 。 在 作出 这 个 权衡 的 时 候 ， 要 确保 这 样 不 会 对 你 的 组 织 和 用 户 造 
成 影响 ， 因 为 你 在 节省 了 硬件 成 本 的 同时 也 降低 了 可 用 性 。 复 制 系数 为 2 意味 着 可 以 容忍 
1 个 broker 发 生 失 效 ， 看 起 来 已 经 足够 了 。 不 过 要 记 住 ， 有 时 候 1 个 broker 发 生 失 效 会 导 
致 集群 不 稳定 (通常 是 旧版 的 Kafka) ， 人 迫使 你 重启 另 一 个 broker 一 一 集群 控制 器 。 也 就 是 
说 ， 如 果 将 复制 系数 设 为 2， 就 有 可 能 因为 重启 等 问题 导致 集群 不 可 用 。 所 以 这 是 一 个 两 
难 的 选择 。 

基于 以 上 几 点 原因 ， 我 们 建议 在 要 求 可 用 性 的 场景 里 把 复制 系数 设 为 3。 在 大 多 数 情况 下 ， 
这 已 经 足够 安全 了 一 一 不 过 我 们 也 见 过 有 些 银行 使 用 5 个 副本 ， 以 防 不 测 。 

副本 的 分 布 也 很 重要 。 上 默认 情况 下 ，Kafka 会 确保 分 区 的 每 个 副本 被 放 在 不 同 的 broker 上 。 
不 过 ， 有 了 时候 这 样 仍然 不 够 安全 。 如 果 这 些 broker 处 于 同一 个 机 架 上 ， 一旦 机 架 的 交换 
机 发 生 故 障 ， 分 区 就 会 不 可 用 ， 这 时 候 把 复制 系数 设 为 多 少 都 不 管用 。 为 了 避免 机 架 级 别 
的 故障 ， 我 们 建议 把 broker 分 布 在 多 个 不 同 的 机 架 上 ， 并 使 用 broker .rack 参数 来 为 每 个 
broker 配置 所 在 机 架 的 名 字 。 如 果 配 置 了 机 架 名 字 ，Kafka 会 保证 分 区 的 副本 被 分 布 在 多 
个 机 架 上 ， 从 而 获得 更 高 的 可 用 性 。 我 们 已 经 在 第 5 章 介 绍 了 如 何在 broker 和 机 架 上 分 布 
副本 ， 如 果 你 对 此 感 兴趣 ， 可 以 参考 第 5 章 的 内 容 。 


6.3.2 不 完全 的 首领 选举 

unclean.leader .election 只 能 在 broker 级 别 (实际 上 是 在 集群 范围 内 ) 进行 配置 ， 它 的 默 

认 值 是 true。 

我 们 之 前 提 到 过 ， 当 分 区 首领 不 可 用 时 ， 一 个 同步 副本 会 被 选 为 新 首领 。 如 果 在 选举 过 程 

中 没有 丢失 数据 ， 也 就 是 说 提交 的 数据 同时 存在 于 所 有 的 同步 副本 上 ， 那 么 这 个 选举 就 是 

“完全 ”的 。 

但 如 果 在 首领 不 可 用 时 其 他 副本 都 是 不 同步 的 ， 我 们 该 怎么 办 呢 ? 

这 种 情况 会 在 以 下 两 种 场景 里 出 现 。 

。 分 区 有 3 个 副本 ， 其 中 的 两 个 跟随 者 副本 不 可 用 (比如 有 两 个 broker 发 生 崩 江 )。 这 个 
时 候 ， 如 果 生 产 者 继续 往 首领 写 入 数据 ， 所 有 消息 都 会 得 到 确认 并 被 提交 (因为 此 时 首 
领 是 唯一 的 同步 副本 )。 现 在 我 们 假设 首领 也 不 可 用 了 (又 一 个 broker 发 生 崩 涡 )， 这 
个 时 候 ， 如 果 之 前 的 一 个 跟随 者 重新 启动 ， 它 就 成 为 了 分 区 的 唯一 不 同步 副本 。 

。 分 区 有 3 个 副本 ， 因 为 网 络 问 题 导 致 两 个 跟随 者 副本 复制 消息 讳 后 ， 所 以 尽管 它们 还 在 
复制 消息 ， 但 已 经 不 同步 了 。 首 领 作 为 唯一 的 同步 副本 继续 接收 消息 。 这 个 时 候 ， 如 果 
首领 变 为 不 可 用 ， 另 外 两 个 副本 就 再 也 无 法 变 成 同步 的 了 。 

对 于 这 两 种 场景 ， 我 们 要 作出 一 个 两 难 的 选择 。 





































































































































































































。 如 果 不 同 步 的 副本 不 能 被 提升 为 新 首领 ， 那 么 分 区 在 旧 首领 (最 后 一 个 同步 副本 ) 恢复 
之 前 是 不 可 用 的 。 有 时 候 这 种 状态 会 持续 数 小 时 〈 比 如 更 换 内 存世 片 )。 

。 如 果 不 同步 的 副本 可 以 被 提升 为 新 首领 ， 那 么 在 这 个 副本 变 为 不 同步 之 后 写 入 旧 首 领 的 
消息 会 全 部 丢失 , 导致 数据 不 一 致 。 为 什么 会 这 样 呢 ? 假设 在 副本 0 和 副本 1 不 可 用 时 ， 
偏 移 量 100~200 的 消息 被 写 入 副本 2 (首领 )。 现 在 副本 2 变 为 不 可 用 的 ， 而 副本 0 变 
为 可 用 的 。 副 本 0 只 包含 偏 移 量 0~100 的 消息 ， 不 包含 偏 移 量 100~200 的 消息 。 如 果 我 
们 允许 副本 0 成 为 新 首领 ,生产 者 就 可 以 继续 写 入 数据 ,消费 者 可 以 继续 读 取 数据 。 于是， 
新 首领 就 有 了 偏 移 量 100~200 的 新 消息 。 这 样 ， 部 分 消费 者 会 读 取 到 偏 移 量 100~200 的 
日 消 息 ， 部 分 消费 者 会 读 取 到 偏 移 量 100~200 的 新 消息 ， 还 有 部 分 消费 者 读 取 的 是 二 者 
的 混合 。 这 样 会 导致 非常 不 好 的 结果 ， 比 如 生成 不 准确 的 报表 。 另 外 ， 副 本 2 可 能 会 重 
新 变 为 可 用 , 并 成 为 新 首领 的 跟随 者 。 这 个 时 候 , 它 会 把 比 当 前 首领 目的 消息 全 部 删除 ， 
而 这 些 消息 对 于 所 有 消费 者 来 说 都 是 不 可 用 的 。 


简 而 言 之 ， 如 果 我 们 允许 不 同步 的 副本 成 为 首领 ， 那 么 就 要 承担 丢失 数据 和 出 现 数据 不 一 
致 的 风险 。 如 果 不 允 许 它们 成 为 首领 ， 那 么 就 要 接受 较 低 的 可 用 性 ， 因 为 我 们 必须 等 待 原 
先 的 首领 恢复 到 可 用 状态 。 


如 果 把 unclean.leader.election.enable 设 为 true， 就 是 允许 不 同步 的 副本 成 为 首领 (也 
就 是 “不 完全 的 选举 ”)， 那 么 我 们 将 面临 丢失 消息 的 风险 。 如 果 把 这 个 参数 设 为 false， 
就 要 等 待 原先 的 首领 重新 上 线 ， 从 而 降低 了 可 用 性 。 我 们 经 常 看 到 一 些 对 数据 质量 和 数据 
一 致 性 要 求 较 高 的 系统 会 禁用 这 种 不 完全 的 首领 选举 (把 这 个 参数 设 为 faLtse)。 银 行 系统 
是 这 方面 最 好 的 例子 ， 大 部 分 银行 系统 宁愿 选择 在 几 分 钟 其 至 几 个 小 时 内 不 处 理 信 用 卡 支 
付 事务 ， 也 不 会 冒险 处 理 错误 的 消息 。 不 过 在 对 可 用 性 要 求 较 高 的 系统 里 ， 比 如 实时 点 击 
流 分 析 系 统 ， 一 般 会 启用 不 完全 的 首领 选举 。 


6.3.3 ”最 少 同步 副本 
在 主题 级 别 和 broker 级 别 上 ， 这 个 参数 都 叫 min.insync.replicas。 


我 们 知道 ， 尽 管 为 一 个 主题 配置 了 3 个 副本 ， 还 是 会 出 现 只 有 一 个 同步 副本 的 情况 。 如 果 
这 个 同步 副本 变 为 不 可 用 ， 我 们 必须 在 可 用 性 和 一 致 性 之 间作 出 选择 一 一 这 是 一 个 两 难 的 
选择 。 根 据 Kafka 对 可 靠 性 保证 的 定义 ， 消 息 只 有 在 被 写 入 到 所 有 同步 副本 之 后 才 被 认为 
是 已 提交 的 。 但 如 果 这 里 的 “所 有 副本 ”只 包含 一 个 同步 副本 ， 那 么 在 这 个 副本 变 为 不 可 
用 时 ， 数 据 就 会 丢失 。 

如 果 要 确保 已 提交 的 数据 被 写 入 不 止 一 个 副本 ,就 需要 把 最 少 同步 副本 数量 设置 为 大 一 点 
的 值 。 对 于 一 个 包含 3 个 副本 的 主题 ， 如 果 min.insync.replicas 被 设 为 2， 那 么 至 少 要 存 
在 两 个 同步 副本 才能 向 分 区 写 入 数据 。 

如 果 3 个 副本 都 是 同步 的 ， 或 者 其 中 一 个 副本 变 为 不 可 用 ， 都 不 会 有 什么 问题 。 不 过 ， 如 
果 有 两 个 副本 变 为 不 可 用 ， 那 么 broker 就 会 停止 接受 生产 者 的 请 求 。 尝 试 发 送 数 据 的 生产 
者 会 收 到 NotEnoughReplicasException 异常 。 消 费 者 仍然 可 以 继续 读 取 已 有 的 数据 。 实 际 
上 ， 如 果 使 用 这 样 的 配置 ， 那 么 当 只 剩 下 一 个 同步 副本 时 ， 它 就 变 成 只 读 了 ， 这 是 为 了 避 
免 在 发 生 不 完全 选举 时 数据 的 写 和 信和 读 取 出 现 非 预期 的 行为 。 为 了 从 只 读 状 态 中 恢复 ， 必 
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须 让 两 个 不 可 用 分 区 中 的 一 个 重新 变 为 可 用 的 (比如 重启 broker) ， 并 等 待 它 变 为 同步 的 。 


6 


.4 在 可 靠 的 系统 里 使 用 生产 者 








即使 我 们 尽 可 能 把 broker 配置 得 很 可 靠 ， 但 如 果 没 有 对 生产 者 进行 可 靠 性 方面 的 配置 ， 整 
个 系统 仍然 有 可 能 出 现 突 发 性 的 数据 丢失 。 


请 看 以 下 两 个 例子 。 











为 broker 配置 了 3 个 副本 ， 并 且 禁 用 了 不 完全 首领 选举 ， 这 样 应 该 可 以 保证 万 无 一 失 。 
我 们 把 生产 者 发 送 消 息 的 acks 设 为 1 (只 要 首领 接收 到 消息 就 可 以 认为 消息 写 入 成 功 )。 
生产 者 发 送 一 个 消息 给 首领 ， 首 领 成 功 写 入 ， 但 跟随 者 副本 还 没有 接收 到 这 个 消息 。 首 
领 向 生产 者 发 送 了 一 个 响应 ， 告 诉 它 “ 消 息 写 入 成 功 ”， 然 后 它 朋 涡 了 ， 而 此 时 消息 还 
没有 被 其 他 副本 复制 过 去 。 另 外 两 个 副本 此 时 仍然 被 认为 是 同步 的 (毕竟 判定 一 个 副本 
不 同步 需要 一 小 段 时 间 )， 而 且 其 中 的 一 个 副本 成 了 新 的 首领 。 因 为 消息 还 没有 被 写 和 人 
这 个 副本 ， 所 以 就 丢失 了 ， 但 发 送 消息 的 客户 端 却 认为 消息 已 成 功 写 入 。 因 为 消费 者 看 
不 到 丢失 的 消息 ， 所 以 此 时 的 系统 仍然 是 一 致 的 (因为 副本 没有 收 到 这 个 消息 ， 所 以 消 
息 不 算 已 提交 ), 但 从 生产 者 角度 来 看 ， 它 丢失 了 一 个 消息 。 

为 broker 配置 了 3 个 副本 ， 并 且 禁 用 了 不 完全 首领 选举 。 我 们 接受 了 之 前 的 教训 ， 把 
生产 者 的 acks 设 为 atL。 假 设 现在 往 Kafka 发 送 消 息 ， 分 区 的 首领 刚好 崩溃 ， 新 的 首领 
正在 选举 当中 ，Kafka 会 向 生产 者 返回 “首领 不 可 用 ”的 响应 。 在 这 个 时 候 ， 如 果 生 产 
者 没 能 正确 处 理 这 个 错误 , 也 没有 重 试 发 送 消 息 直 到 发 送 成 功 , 那么 消息 也 有 可 能 丢失 。 
这 算 不 上 是 broker 的 可 靠 性 问题 ， 因 为 broker 并 没有 收 到 这 个 消息 。 这 也 不 是 一 致 性 
问题 ， 因 为 消费 者 并 没有 读 到 这 个 消息 。 问 题 在 于 如 果 生 产 者 没 能 正确 处 理 这 些 错误 ， 
弄 丢 消息 的 是 它们 自己 。 

























































































那么 ， 我 们 该 如 何 避 免 这 些 悲剧 性 的 后 果 呢 ? 从 上 面 两 个 例子 可 以 看 出 ， 每 个 使 用 Kafka 
的 开发 人 员 都 要 注意 两 件 事情 。 





根据 可 靠 性 需求 配置 恰当 的 acks 值 。 
在 参数 配置 和 代码 里 正确 处 理 错 误 。 





第 3 章 已 经 深入 讨论 了 生产 者 的 几 种 模式 ， 现 在 回顾 几 个 要 点 。 


6. 


4.1 发 送 确认 


生产 者 可 以 选择 以 下 3 种 不 同 的 确认 模式 。 


acks=0 意味 着 如 果 生 产 者 能 够 通过 网 络 把 消息 发 送出 去 ， 那 么 就 认为 消息 已 成 功 写 人 
Kafka。 在 这 种 情况 下 还 是 有 可 能 发 生 错误 ， 比 如 发 送 的 对 象 无 法 被 序列 化 或 者 网 卡 发 
生 故 障 ， 但 如 果 是 分 区 离线 或 整个 集群 长 时 间 不 可 用 ， 那 就 不 会 收 到 任何 错误 。 即 使 是 
在 发 生 完全 首领 选举 的 情况 下 ， 这 种 模式 仍然 会 丢失 消息 ， 因 为 在 新 首领 选举 过 程 中 它 
并 不 知道 首领 已 经 不 可 用 了 。 在 acks=9 模式 下 的 运行 速度 是 非常 快 的 (这 就 是 为 什么 
很 多 基准 测试 都 是 基于 这 个 模式 )， 你 可 以 得 到 惊人 的 吞吐 量 和 带宽 利用 率 ， 不 过 如 果 
选择 了 这 种 模式 ， 一 定 会 丢失 一 些 消 息 。 
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。 acks=1 意味 着 首领 在 收 到 消息 并 把 它 写 入 到 分 区 数据 文件 〈 不 一 定 同步 到 磁盘 上 ) 时 
会 返回 确认 或 错误 响应 。 在 这 个 模式 下 ， 如 果 发 生 正常 的 首领 选举 ， 生 产 者 会 在 选举 时 
收 到 一 个 LeaderNotAvailableException 异常 ， 如 果 生 产 者 能 恰当 地 处 理 这 个 错误 ( 参 
芳 6.4.2 市 )， 它 会 重 试 发 送 消 息 ， 最 终 消 息 会 安全 到 达 新 的 首领 那里 。 不 过 在 这 个 模式 

下 仍然 有 可 能 丢失 数据 ， 比 如 消息 已 经 成 功 写 入 首领 ， 但 在 消息 被 复制 到 跟随 者 副本 之 

前 首领 发 生 崩 溃 。 

。 acks=all 意味 着 首领 在 返回 确认 或 错误 响应 之 前 ， 会 等 待 所 有 同步 副本 都 收 到 消息 。 如 

果 和 min.insync.replicas 参数 结合 起 来 ， 就 可 以 决定 在 返回 确认 前 至 少 有 多 少 个 副本 

能 够 收 到 消息 。 这 是 最 保险 的 做 法 一 一 生产 者 会 一 直 重 试 直到 消息 被 成 功 提交 。 不 过 这 

也 是 最 慢 的 做 法 ,生产 者 在 继续 发 送 其 他 消息 之 前 需要 等 待 所 有 副本 都 收 到 当前 的 消息 。 

可 以 通过 使 用 异步 模式 和 更 大 的 批 次 来 加 快速 度 ， 但 这 样 做 通常 会 降低 吞吐 量 。 


6.4.2 配置 生产 者 的 重 试 参 数 

生产 者 需要 处 理 的 错误 包括 两 部 分 : 一 部 分 是 生产 者 可 以 自动 处 理 的 错误 ， 还 有 一 部 分 是 
需要 开发 者 手动 处 理 的 错误 。 

如 果 broker 返回 的 错误 可 以 通过 重 试 来 解决 ， 那 么 生产 者 会 自动 处 理 这 些 错误 。 生 产 者 向 
broker 发 送 消息 时 ，broker 可 以 返回 一 个 成 功 了 响应 码 或 者 一 个 错误 响应 码 。 错 误 响应 码 可 以 
分 为 两 种 ， 一 种 是 在 重 试 之 后 可 以 解决 的 ， 还 有 一 种 是 无 法 通过 重 试 解决 的 。 例 如 ， 如 果 
broker 返回 的 是 LEADER_NOT_AVAILABLE 错误 ， 生 产 者 可 以 尝试 重新 发 送 消 息 。 也 许 在 这 个 时 
修一 个 新 的 首领 被 选举 出 来 了 ， 那 么 这 次 发 送 就 会 成 功 。 也 就 是 说 ，LEADER_NOT_AVAILABLE 
是 一 个 可 重 试 错误 。 另 一 方面 ， 如 果 broker 返回 的 是 INVALID_CONFIG 错误 ， 即 使 通过 重 试 
也 无 法 改变 配置 选项 ， 所 以 这 样 的 重 试 是 没有 意义 的 。 这 种 错误 是 不 可 重 试 错误 。 

一 般 情况 下 ， 如 果 你 的 目标 是 不 丢失 任何 消息 ， 那 么 最 好 让 生产 者 在 遇 到 可 重 试 错误 时 
能 够 保持 重 试 。 为 什么 要 这 样 ” 因 为 像 首领 选举 或 网 络 连 接 这 类 问题 都 可 以 在 几 秒 钟 之 
内 得 到 解决 ， 如 果 让 生产 者 保持 重 试 ， 你 就 不 需要 额外 去 处 理 这 些 问题 了 。 经 常会 有 人 
问 :“ 为 生产 者 配置 多 少 重 试 次 数 比 较 好 ? ”这 个 要 看 你 在 生产 者 放弃 重 试 并 抛 出 异常 之 
后 想 做 些 什 么 。 如 果 你 想 抓 住 异常 并 再 多 重 试 几 次 ， 那 么 就 可 以 把 重 试 次 数 设置 得 多 一 
点 ， 让 生产 者 继续 重 试 ， 如 果 你 想 直接 丢弃 消息 ， 多 次 重 试 造成 的 延迟 已 经 失去 发 送 消 息 
的 意义 ， 如果 你 想 把 消息 保存 到 某 个 地 方 然后 回 过 头 来 再 继续 处 理 ， 那 就 可 以 停止 重 试 。 
Kafka 的 跨 数据 中 心 复制 工具 (MirrorMaker， 我 们 将 在 第 8 章 介绍 ) 默认 会 进行 无 限制 的 
重 试 (例如 retries=MAX_INT)。 作 为 一 个 具有 高 可 靠 性 的 复制 工具 ， 它 决 不 会 丢失 消息 。 


要 注意 ， 重 试 发 送 一 个 已 经 失败 的 消息 会 带 来 一 些 风险 ， 如 果 两 个 消息 都 写 入 成 功 ， 会 导 
致 消息 重复 。 例 如 ， 生 产 者 因为 网 络 问 题 没 有 收 到 broker 的 确认 ， 但 实际 上 消息 已 经 写 入 
成 功 ， 生 产 者 会 认为 网 络 出 现 了 临时 故障 ， 就 重 试 发 送 该 消息 (因为 它 不 知道 消息 已 经 写 
入 成 功 ) 。 在 这 种 情况 下 ，broker 会 收 到 两 个 相同 的 消息 。 重 试 和 恰当 的 错误 处 理 可 以 保 
证 每 个 消息 “至 少 被 保存 一 次 ”"， 但 当前 的 Kafka 版 本 (0.10.0) 无 法 保证 每 个 消息 “只 被 
保存 一 次 ”。 现 实 中 的 很 多 应 用 程序 在 消息 里 加 入 唯一 标识 符 ， 用 于 检测 重复 消息 ， 消 费 
者 在 读 取消 息 时 可 以 对 它们 进行 清理 。 还 要 一 些 应 用 程序 可 以 做 到 消息 的 “ 需 等 ”， 也 就 
是 说 ， 即 使 出 现 了 重复 消息 ， 也 不 会 对 处 理 结果 的 正确 性 造成 负面 影响 。 例 如 ， 消 息 “ 这 
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个 账号 里 有 110 美元 ”就 是 宪 等 的 ， 因 为 即使 多 次 发 送 这 样 的 消息 ， 产 生 的 结果 都 是 一 样 
的 。 不 过 消息 “ 往 这 个 账号 里 增加 10 美元 ”就 不 是 宪 等 的 。 


6.4.3 ”额外 的 错误 处 理 
使 用 生产 者 内 置 的 重 试 机 制 可 以 在 不 造成 消息 丢失 的 情况 下 轻松 地 处 理 大 部 分 错误 ， 不 过 
对 于 开发 人 员 来 说 ,仍然 需 要 处 理 其 他 类 型 的 错误 ， 包 括 : 


。 不 可 重 试 的 broker 错误 ， 例 如 消息 大 小 错误 、 认 证 错误 等 ， 
。 在 消息 发 送 之 前 发 生 的 错误 ， 例 如 序列 化 错误 ， 
。 在 生产 者 达到 重 试 次 数 上 限时 或 者 在 消息 占用 的 内 存 达到 上 限时 发 生 的 错误 。 


我 们 在 第 3 章 讨论 了 如 何 为 同步 发 送 消 息 和 异步 发 送 消息 编写 错误 处 理 器 。 这 些 错误 处 理 
器 的 代码 罗 辑 与 具体 的 应 用 程序 及 其 目标 有 有关。 丢弃“ 不 合法 的 消息 ”? 把 错误 记录 下 
来 ?把 这 些 消息 保存 在 本 地 磁盘 上 ? 回调 另 一 个 应 用 程序 ?具体 使 用 哪 一 种 逻辑 要 根据 具 
体 的 架构 来 决定 。 只 要 记 住 ， 如 果 错 误 处 理 只 是 为 了 重 试 发 送 消息 ， 那 么 最 好 还 是 使 用 生 
产 者 内 置 的 重 试 机 制 。 


6.5 在 可 靠 的 系统 里 使 用 消费 者 


我 们 已 经 学 习 了 如 何在 保证 Kafka 可 靠 性 的 前 提 下 生产 数据 ， 现 在 来 看 看 如 何在 同样 的 前 
提 下 读 取 数据 。 

在 本 章 的 开始 部 分 可 以 看 到 ， 只 有 那些 被 提交 到 Kafka 的 数据 ， 也 就 是 那些 已 经 被 写 入 所 
有 同步 副本 的 数据 ， 对 消费 者 是 可 用 的 ， 这 意味 着 消费 者 得 到 的 消息 已 经 具备 了 一 致 性 。 
消费 者 唯一 要 做 的 是 跟踪 哪些 消息 是 已 经 读 取 过 的 ， 哪 些 是 还 没有 读 取 过 的 。 这 是 在 读 取 
消息 时 不 丢失 消息 的 关键 。 

在 从 分 区 读 取 数 据 时 ， 消 费 者 会 获取 一 批 事件 ， 检 查 这 批 事件 里 最 大 的 偏 移 量 ， 然 后 从 这 
个 偏 移 量 开始 读 取 另 外 一 批 事件 。 这 样 可 以 保证 消费 者 总 能 以 正确 的 顺序 获取 新 数据 ， 不 
会 错过 任何 事件 。 


如 有 果 一 个 消费 者 退出 ， 另 一 个 消费 者 需要 知道 从 什么 地 方 开始 继续 处 理 ， 它 需要 知道 前 一 个 
消费 者 在 退出 前 处 理 的 最 后 一 个 偏 移 量 是 多 少 。 所 谓 的 “ 另 一 个 ”消费 者 ， 也 可 能 就 是 它 自 
己 重启 之 后 重新 回来 工作 。 这 也 就 是 为 什么 消费 者 要 “提交 ”它们 的 偏 移 量 。 它 们 把 当前 读 
取 的 偏 移 量 保存 起 来 ， 在 退出 之 后 ， 同 一 个 群 组 里 的 其 他 消费 者 就 可 以 接手 它们 的 工作 。 如 
果 消 费 者 提交 了 偏 移 量 却 未 能 处 理 完 消息 ， 那 么 就 有 可 能 造成 消息 丢失 ， 这 也 是 消费 者 丢失 
消息 的 主要 原因 。 在 这 种 情况 下 ， 如 果 其 他 消费 者 接手 了 工作 ， 那 些 没 有 被 处 理 完 的 消息 就 
会 被 忽略 ， 永 远 得 不 到 处 理 。 这 就 是 为 什么 我 们 非常 重视 偏 移 量 提交 的 时 间 点 和 提交 的 方式 。 


已 提交 消息 与 已 提交 偏 移 量 


要 注意 ， 此 处 的 已 提交 消息 与 之 前 讨论 过 的 已 提交 消息 是 不 一 样 的 ， 它 是 指 
已 经 被 写 入 所 有 同步 副本 并 且 对 消费 者 可 见 的 消息 ， 而 已 提交 偏 移 量 是 指 消 
费 者 发 送 给 Kafka 的 偏 移 量 ， 用 于 确认 它 已 经 收 到 并 处 理 好 的 消息 位 置 。 
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我 们 在 第 4 章 已 经 详细 介绍 了 消费 者 API 的 使 用 ， 还 介绍 了 多 种 提交 偏 移 量 的 方式 。 下 面 
会 介绍 一 些 关键 的 注意 事项 ， 如 果 要 了 解 消费 者 API 的 使 用 细节 ， 请 参考 第 4 章 。 


6.5.1 消费 者 的 可 靠 性 配置 
为 了 保证 消费 者 行为 的 可 靠 性 ， 需 要 注意 以 下 4 个 非常 重要 的 配置 参数 。 


第 1 个 是 group.id。 这 个 参数 在 第 4 章 已 经 详细 解释 过 了 ， 如 果 两 个 消费 者 具有 相同 的 
group.id， 并 且 订 阅 了 同一 个 主题 ， 那 么 每 个 消费 者 会 分 到 主题 分 区 的 一 个 子 集 ， 也 就 是 
说 它们 只 能 读 到 所 有 消息 的 一 个 子 集 (不 过 群 组 会 读 取 主 题 所 有 的 消息 )。 如 果 你 希望 消 
费 者 可 以 看 到 主题 的 所 有 消息 ， 那 么 需要 为 它们 设置 唯一 的 group.id。 


第 2 个 是 auto.offset.reset。 这 个 参数 指定 了 在 没有 偏 移 量 可 提交 时 (比如 消费 者 第 1 次 
启动 时 ) 或 者 请 求 的 偏 移 量 在 broker 上 不 存在 时 (第 4 章 已 经 解释 过 这 种 场景 )， 消 费 者 
会 做 些 什么 。 这 个 参数 有 两 种 配置 。 一 种 是 eartiest， 如 果 选 择 了 这 种 配置 ， 消 费 者 会 
从 分 区 的 开始 位 置 读 取 数据 ， 不 管 偏 移 量 是 否 有 效 ， 这 样 会 导致 消费 者 读 取 大 量 的 重复 数 
据 ， 但 可 以 保证 最 少 的 数据 丢失 。 一 种 是 Latest， 如 有 果 选 择 了 这 种 配置 ， 消 费 者 会 从 分 区 
的 末尾 开始 读 取 数 据 ， 这 样 可 以 减少 重复 处 理 消息 ， 但 很 有 可 能 会 错过 一 些 消息 。 


第 3 个 是 enable.auto.commit。 这 是 一 个 非常 重要 的 配置 参数 ， 你 可 以 让 消费 者 基于 任务 
调度 自动 提交 偏 移 量 ， 也 可 以 在 代码 里 手动 提交 偏 移 量 。 自 动 提 交 的 一 个 最 大 好 处 是 ,在 
实现 消费 者 逻辑 时 可 以 少 考虑 一 些 问 题 。 如 果 你 在 消费 者 轮 询 操 作 里 处 理 所 有 的 数据 ， 那 
么 自动 提交 可 以 保证 只 提交 已 经 处 理 过 的 偏 移 量 (如果 忘 了 消费 者 轮 询 是 什么 ,请 回顾 一 
下 第 4 章 的 内 容 )。 自 动 提交 的 主要 缺点 是 ， 无 法 控制 重复 处 理 消 息 ( 比 如 消费 者 在 自动 
提交 偏 移 量 之 前 停止 处 理 消息 )， 而 且 如 果 把 消息 交 给 另外 一 个 后 台 线 程 去 处 理 ， 自 动 提 
交 机 制 可 能 会 在 消息 还 没有 处 理 完毕 就 提交 偏 移 量 。 

第 4 个 配置 参数 auto.commit.interval.ms 与 第 3 个 参数 有 直接 的 联系 。 如 果 选 择 了 自动 提 
交 偏 移 量 ， 可 以 通过 该 参数 配置 提交 的 频 度 ， 默 认 值 是 每 5 秒 钟 提交 一 次 。 一 般 来 说 ， 频 
繁 提交 会 增加 额外 的 开销 ， 但 也 会 降低 重复 处 理 消息 的 概率 。 


6.5.2” 显 式 提交 偏 移 量 

如 果 选 择 了 自动 提交 偏 移 量 ， 就 不 需要 关心 显 式 提交 的 问题 。 不 过 如 果 和 希望 能 够 更 多 地 控 
制 偏 移 量 提交 的 时 间 点 ， 那 么 就 要 仔细 想 想 该 如 何 提交 偏 移 量 了 一 -一 要 么 是 为 了 减少 重复 
处 理 消息 ， 要 么 是 因为 把 消息 处 理 逻 辑 放 在 了 轮 询 之 外 。 

这 里 我 们 不 再 重复 说 明 这 个 机 制 以 及 如 何 使 用 相关 的 API， 因 为 第 4 章 里 已 经 有 很 详细 的 
介绍 。 相 反 ， 我 们 会 着 重 说 明 几 个 在 开发 具有 可 靠 性 的 消费 者 应 用 程序 时 需要 注意 的 事 
项 。 我 们 先 从 简单 的 开始 ， 再 逐步 深入 。 

1. 总 是 在 处 理 完 事件 后 再 提交 偏 移 量 

如 果 所 有 的 处 理 都 是 在 轮 询 里 完成 ， 并 且 不 需要 在 轮 询 之 间 维 护 状态 (比如 为 了 实现 聚合 
操作 ) ， 那 么 可 以 使 用 自动 提交 ， 或 者 在 轮 询 结束 时 进行 手动 提交 。 
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2. 提交 频 度 是 性 能 和 重复 消息 数量 之 间 的 权衡 


即使 是 在 最 简单 的 场景 里 ， 比 如 所 有 的 处 理 都 在 轮 询 里 完成 ， 并 且 不 需要 在 轮 询 之 间 维 护 
状态 ， 你 仍然 可 以 在 一 个 循环 里 多 次 提交 偏 移 量 (其 至 可 以 在 每 处 理 完 一 个 事件 之 后 )， 
或 者 多 个 循环 里 只 提交 一 次 (与 生产 者 的 acks=all 配置 有 点 类 似 )， 这 完全 取决 于 你 在 性 
能 和 重复 处 理 消 息 之 间作 出 的 权衡 。 


3. 确保 对 提交 的 偏 移 量 心里 有 数 


在 轮 询 过 程 中 提交 偏 移 量 有 一 个 不 好 的 地 方 ， 就 是 提交 的 偏 移 量 有 可 能 是 读 取 到 的 最 新 偏 
移 量 ， 而 不 是 处 理 过 的 最 新 偏 移 量 。 要 记 住 ， 在 处 理 完 消 息 后 再 提交 偏 移 量 是 非常 关键 
的 一 一 否则 会 导致 消费 者 错过 消息 。 我 们 已 经 在 第 4 章 给 出 了 示例 。 


4. 再 均衡 


在 设计 应 用 程序 时 要 注意 处 理 消费 者 的 再 均衡 问题 。 我 们 在 第 4 章 举 了 几 个 例子 ， 一 般 要 
在 分 区 被 撤销 之 前 提交 偏 移 量 ， 并 在 分 配 到 新 分 区 时 清理 之 前 的 状态 。 

5. 消费 者 可 能 需要 重 试 

有 时 候 ， 在 进行 轮 询 之 后 ， 有 些 消息 不 会 被 完全 处 理 ， 你 想 稍 后 再 来 处 理 。 例 如 ， 假 设 
要 把 Kafka 的 数据 写 到 数据 库 里 ， 不 过 那个 时 候 数 据 库 不 可 用 ， 于 是 你 想 稍 后 重 试 。 要 注 
意 ， 你 提交 的 是 偏 移 量 ， 而 不 是 对 消息 的 “确认 ”， 这 个 与 传统 的 发 布 和 订阅 消息 系统 不 
太一 样 。 如 果 记 录 #30 处 理 失败 ， 但 记录 要 1 处 理 成 功 ， 那 么 你 不 应 该 提交 要 1， 否 则 会 
导致 #31 以 内 的 偏 移 量 都 被 提交 ， 包 括 #30 在 内 ， 而 这 可 能 不 是 你 想 看 到 的 结果 。 不 过 可 
以 采用 以 下 两 种 模式 来 解决 这 个 问题 。 

第 一 种 模式 ， 在 遇 到 可 重 试 错误 时 ， 提 交 最 后 一 个 处 理 成 功 的 偏 移 量 ， 然 后 把 还 没有 处 理 
好 的 消息 保存 到 缓冲 区 里 (这样 下 一 个 轮 询 就 不 会 把 它们 覆盖 掉 )， 调 用 消费 者 的 pause() 
方法 来 确保 其 他 的 轮 询 不 会 返回 数据 (不 需要 担心 在 重 试 时 缓冲 区 溢出 )， 在 保持 轮 询 的 
同时 党 试 重新 处 理 (关于 为 什么 不 能 停止 轮 询 ， 请 参考 第 4 章 )。 如 果 重 试 成 功 ， 或 者 重 
试 次 数 达 到 上 限 并 决定 放弃 ， 那 么 把 错误 记录 下 来 并 丢弃 消息 ， 然 后 调用 resume() 方法 让 
消费 者 继续 从 轮 询 里 获取 新 数据 。 
第 二 种 模式 ， 在 遇 到 可 重 试 错误 时 ， 把 错误 写 入 一 个 独立 的 主题 ， 然 后 继续 。 一 个 独立 的 
消费 者 群 组 负责 从 该 主题 上 读 取 错误 消息 ， 并 进行 重 试 ， 或 者 使 用 其 中 的 一 个 消费 者 同时 
从 该 主题 上 读 取 错 误 消 息 并 进行 重 试 ， 不 过 在 重 试 时 需要 暂停 该 主题 。 这 种 模式 有 点 像 其 
他 消息 系统 里 的 dead-letter-queue。 


6. 消费 者 可 能 需要 维护 状态 


有 时 候 你 希望 在 多 个 轮 询 之 间 维 护 状 态 ， 例 如 ， 你 想 计算 消息 的 移动 平均 数 ， 希望 在 首次 
轮 询 之 后 计算 平均 数 ， 然 后 在 后 续 的 轮 询 中 更 新 这 个 结果 。 如 果 进 程 重启 ， 你 不 仅 需要 从 
上 一 个 偏 移 量 开始 处 理 数 据 ， 还 要 恢复 移动 平均 数 。 有 一 种 办 法 是 在 提交 偏 移 量 的 同时 把 
最 近 计 算 的 平均 数 写 到 一 个 “结果 ”主题 上 。 消 费 者 线程 在 重新 启动 之 后 ， 它 就 可 以 拿 到 
最 近 的 平均 数 并 接着 计算 。 不 过 这 并 不 能 完全 地 解决 问题 ， 因 为 Kafka 并 没有 提供 事务 文 
持 。 消 费 者 有 可 能 在 写 入 平均 数 之 后 来 不 及 提交 偏 移 量 就 崩 涡 了 ， 或 者 反 过 来 也 一 样 。 这 
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是 一 个 很 复杂 的 问题 ， 你 不 应 该 尝试 自己 去 解决 这 个 问题 ， 建 议 尝试 一 下 KafkaStreams 这 
个 类 库 ， 它 为 聚合 、 连 接 、 时 间 窗 和 其 他 复杂 的 分 析 提 供 了 高 级 的 DSL API。 


7. 长 时 间 处 理 
有 时 候 处 理 数据 需要 很 长 时 间 : 你 可 能 会 从 发 生 阻塞 的 外 部 系统 获取 信息 ， 或 者 把 数据 
写 到 外 部 系统 ， 或 者 进行 一 个 非常 复杂 的 计算 。 要 记 住 ， 暂 停 轮 询 的 时 间 不 能 超过 几 秒 
钟 。 即 使 不 想 获取 更 多 的 数据 ， 也 要 保持 轮 询 ， 这 样 客户 端 才能 往 broker 发 送 心 跳 。 在 
这 种 情况 下 ， 一 种 常见 的 做 法 是 使 用 一 个 线程 地 来 处 理 数 据 ， 因 为 使 用 多 个 线程 可 以 进 
行 并 行 处 理 ， 从 而 加 快 处 理 速度 。 在 把 数据 移交 给 线程 池 去 处 理 之 后 ， 你 就 可 以 暂停 消 
费 者 ， 然 后 保持 轮 询 ， 但 不 获取 新 数据 ， 直 到 工作 线程 处 理 完 成 。 在 工作 线程 处 理 完成 
之 后 ， 可 以 让 消费 者 继续 获取 新 数据 。 因 为 消费 者 一 直 保 持 轮 询 ， 心 跳 会 正常 发 送 ， 就 
不 会 发 生 再 均衡 。 

8. 仅 一 次 传递 

有 些 应 用 程序 不 仅仅 需要 “至 少 一 次 ”(at-least-once) 语义 (意味 着 没有 数据 丢失 )， 还 
需要 “ 仅 一 次 ”(exactly-once) 语义 。 尽 管 Kafka 现在 还 不 能 完全 支持 仅 一 次 语义 ， 消 费 
者 还 是 有 一 些 办 法 可 以 保证 Kafka 里 的 每 个 消息 只 被 写 到 外 部 系统 一 次 (但 不 会 处 理 向 
Kafka 写 入 数据 时 可 能 出 现 的 重复 数据 )。 


实现 仅 一 次 处 理 最 简单 且 最 常用 的 办 法 是 把 结果 写 到 一 个 支持 唯一 键 的 系统 里 ， 比 如 键 值 
存储 引擎 、 关 系 型 数据 库 、ElasticSearch 或 其 他 数据 存储 引擎 。 在 这 种 情况 下 ， 要 么 消息 
本 身 包 含 一 个 唯一 键 (通常 都 是 这 样 )， 要 么 使 用 主题 、 分 区 和 偏 移 量 的 组 合 来 创建 唯 
键 一 一 它们 的 组 合 可 以 唯一 标识 一 个 Kafka 记录 。 如 果 你 把 消息 和 一 个 唯一 键 写 入 系统 ， 
然后 碰巧 又 读 到 一 个 相同 的 消息 ， 只 要 把 原先 的 键 值 覆盖 掉 即 可 。 数 据 存储 引擎 会 覆盖 已 
经 存在 的 键 值 对 ， 就 像 没有 出 现 过 重复 数据 一 样 。 这 个 模式 被 叫 作 震 等 性 写 入 ， 它 是 一 种 
很 常见 也 很 有 用 的 模式 。 

如 果 写 入 消息 的 系统 支持 事务 ， 那 么 就 可 以 使 用 另 一 种 方法 。 最 简单 的 是 使 用 关系 型 数据 
库 , 不 过 HDFS 里 有 一 些 被 重新 定义 过 的 原子 操作 也 经 常用 来 达到 相同 的 目的 。 我 们 把 消 
息 和 偏 移 量 放 在 同一 个 事务 里 ， 这 样 它们 就 能 保持 同步 。 在 消费 者 启动 时 ， 它 会 获取 最 近 
处 理 过 的 消息 偏 移 量 ， 然 后 调用 seek() 方法 从 该 偏 移 量 位 置 继续 读 取 数 据 。 我 们 在 第 4 章 
已 经 介绍 了 一 个 相关 的 例子 。 


6.6 ”验证 系统 可 靠 性 


你 经 过 了 所 有 的 流程 ， 从 确认 可 靠 性 需求 ， 到 配置 broker， 再 到 配置 客户 端 ， 并 小 心 谨慎 
地 使 用 API…… 现 在 可 以 把 所 有 东西 都 放 到 生产 环境 里 去 运行 ， 然 后 高 枕 无 忧 ， 自 信 不 会 
丢失 任何 消息 了 ， 对 吗 ? 
你 当然 可 以 这 人 么 做 ， 不 过 建议 还 是 先 对 系统 可 靠 性 做 一 些 验证 。 我 们 建议 做 3 个 层面 的 验 
证 一 一 配置 验证 、 应 用 程序 验证 以 及 生产 环境 的 应 用 程序 监控 。 让 我 们 来 看 看 每 一 步 都 要 
做 些 什么 以 及 该 怎么 做 。 
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6.6.1 配置 验证 

从 应 用 程序 里 可 以 很 容易 对 broker 和 客户 端 配置 进行 验证 ， 我 们 之 所 以 建议 这 么 做 ， 有 以 

下 两 方面 的 原因 。 

。 验证 配置 是 否 满足 你 的 需求 。 

。 帮助 你 理解 系统 的 行为 ， 了 解 系统 的 真正 行为 是 什么 ， 了 解 你 对 Kafka 基本 准则 的 理解 
是 否 存 在 偏差 ， 然后 加 以 改进 ， 同 时 了 解 这 些 准 则 是 如 何 被 应 用 到 各 种 场景 里 的 。 这 一 
章 的 内 容 偏重 理论 ， 所 以 要 确保 你 能 够 理解 这 些 理论 是 如 何 运 用 于 实际 当中 的 。 

Kafka 提供 了 两 个 重要 的 工具 用 于 验证 配置 org.apache.kafka.tools 包 里 的 Verifiable 

Producer 和 VerifiableConsumer 这 两 个 类 。 我 们 可 以 从 命令 行 运行 这 两 个 类 ， 或 者 把 它们 

嵌入 到 自动 化 测试 框架 里 。 

其 思想 是 ，VerifiableProducer 生成 一 系列 消息 ， 这 些 消 息 包含 从 1 到 你 指定 的 某 个 数 

字 。 你 可 以 使 用 与 生产 者 相同 的 方式 来 配置 VerifiableProducer， 比 如 配置 相同 的 acks、 

重 试 次 数 和 消息 生成 速度 。 在 运行 VerifiableProducer 时 ， 它 会 把 每 个 消息 是 否 成 功 发 送 

到 broker 的 结果 打印 出 来 。VerifiableConsumer 执行 的 是 另 一 个 检查 它 读 取 事件 (由 

VerifiableProducer 生成 ) 并 按 顺 序 打印 出 这 些 事 件 。 它 也 会 打印 出 已 提交 的 偏 移 量 和 再 

均衡 的 相关 信息 。 

你 可 以 考虑 运行 以 下 一 些 测 试 。 

。 首领 选举 : 如 果 我 停 掉 首 领会 发 生 什 么 事情 ?生产 者 和 消费 者 重新 恢复 正常 状态 需要 多 
长 时 间 ? 

。 控制 器 选举 : 重启 控制 器 后 系统 需要 多 少时 间 来 恢复 状态 ? 

。 依次 重启 : 可 以 依次 重启 broker 而 不 丢失 任何 数据 吗 ? 

。 不 完全 首领 选举 测试 : 如 果 依 次 停止 所 有 副本 (确保 每 个 副本 都 变 为 不 同步 的 ) ， 然 后 
启动 一 个 不 同步 的 broker 会 发 生 什 么 ? 要 怎样 恢复 正常 ? 这 样 做 是 可 接受 的 吗 ? 

然后 你 从 中 选择 一 个 场景 ， 启 动 VerifiableProducer 和 VerifiableConsumer 并 开始 测试 这 

个 场景 ， 例 如 ， 停 掉 正 在 接收 消息 的 分 区 首领 。 如 果 期 望 在 一 个 短暂 的 暂停 之 后 状态 恢复 

正常 并 且 没 有 任何 数据 丢失 ， 那 么 只 要 确保 生产 者 生成 的 数据 个 数 与 消费 者 读 取 的 数据 个 

数 是 匹配 的 就 可 以 了 。 

Kafka 的 代码 库 里 包含 了 大 量 测 试用 例 。 它 们 大 部 分 都 遵循 相同 的 准则 一 一 使 用 

Verifiable Producer 和 VerifiableConsumer 来 确保 迭代 的 版 本 能 够 正常 工作 。 


6.6.2 ”应 用 程序 验证 

在 确定 broker 和 客户 端的 配置 可 以 满足 你 的 需求 之 后 ， 接 下 来 要 验证 应 用 程序 是 否 能 够 保 
证 达到 你 的 期 望 。 应 用 程序 的 验证 包括 检查 自 定义 的 错误 处 理 代码 、 偏 移 量 提交 的 方式 、 
再 均衡 监听 器 以 及 其 他 使 用 了 Kafka 客户 端的 地 方 。 

因为 应 用 程序 是 你 自己 的 ， 关 于 如 何 测 试 应 用 程序 的 逻辑 ， 我 们 无 法 提供 更 多 的 指导 ， 但 
愿 你 的 开发 流程 里 已 经 包含 了 集成 测试 。 不 管 如 何 验证 你 的 应 用 程序 ， 我 们 都 建议 基于 如 
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下 的 故障 条 件 做 一 些 测 试 : 


。 客户 端 从 服务 器 断 开 连接 (系统 管理 员 可 以 帮忙 模拟 网 络 故障 ) ; 

。 首领 选举 ; 

。 依次 重启 broker; 

。 依次 重启 消费 者 ， 

。 依次 重启 生产 者 。 

你 对 每 一 个 测试 场景 都 会 有 期 望 的 行为 ， 也 就 是 在 开发 应 用 程序 时 所 期 望 看 到 的 行为 ， 然 
后 运行 测试 看 看 真实 的 结果 是 否 符合 预期 。 例 如 ， 在 测试 “依次 重启 消费 者 ”这 一 场景 
时 ， 你 期 望 看 到 “在 短暂 的 再 均衡 之 后 出 现 的 重复 消息 个 数 不 超 过 1000 个 ”。 测 试 结果 会 
告诉 我 们 应 用 程序 提交 偏 移 量 的 方式 和 处 理 再 均衡 的 方式 是 否 与 预期 的 一 样 。 


6.6.3 在 生产 环境 监控 可 靠 性 

测试 应 用 程序 是 很 重要 的 ， 不 过 它 无 法 代替 生产 环境 的 持续 监控 ， 这 些 监 控 是 为 了 确保 数 
据 按 照 期 望 的 方式 流动 。 我 们 将 会 在 第 9 章 详细 介绍 如 何 监控 Kafka 集群 ， 不 过 除了 监控 
集群 的 健康 状况 之 外 ， 监 控 客 户 端 和 数据 流 也 是 很 重要 的 。 

首先 ，Kafka 的 Java 客户 端 包含 了 JMX 度量 指标 ， 这 些 指 标 可 以 用 于 监控 客户 端的 状态 
和 事件 。 对 于 生产 者 来 说 ， 最 重要 的 两 个 可 靠 性 指标 是 消息 的 error-rate 和 retry-rate 〈 聚 
合 过 的 )。 如 果 这 两 个 指标 上 升 ， 说 明 系 统 出 现 了 问题 。 除 此 以 外 ， 还 要 监控 生产 者 日 
志 一 一 发 送 消 息 的 错误 日 志 被 设 为 WARN 级 别 ， 可 以 在 “Got error produce response with 
correlation id 5689 on topic-partition [topic-1,3], retrying (two attempts left). Error: ... ”中 找 
到 它们 。 如 果 你 看 到 消息 剩余 的 重 试 次 数 为 0， 说 明生 产 者 已 经 没有 多 余 的 重 试 机 会 。 就 
像 我 们 在 6.4 节 所 讨论 的 那样 ， 你 也 许可 以 增加 重 试 次 数 ， 或 者 把 造成 这 个 错误 的 问题 先 
解决 掉 。 

对 于 消费 者 来 说 ， 最 重要 的 指标 是 consumer-lag， 访 指标 表明 了 消费 者 的 处 理 速 度 与 最 近 
提交 到 分 区 里 的 偏 移 量 之 间 还 有 多 少 差 距 。 理 想 情况 下 ， 该 指标 总 是 为 0， 消 费 者 总 能 读 
到 最 新 的 消息 。 不 过 在 实际 当中 ， 因 为 potl() 方法 会 返回 很 多 消息 ， 消 费 者 在 获取 更 多 数 
据 之 前 需要 花 一 些 时 间 来 处 理 它们 ， 所 以 该 指标 会 有 些 波动 。 关 键 是 要 确保 消费 者 最 终 会 
赶 上 去 ， 而 不 是 越 落 越 远 。 因 为 该 指标 会 正常 波动 ， 所 以 在 告警 系统 里 配置 该 指标 有 一 定 
难度 。Burrow 是 LinkedIn 公司 开发 的 一 个 consumer-lag 检测 工具 ， 它 可 以 让 这 件 事 情 变 
得 容易 一 些 。 

监控 数据 流 是 为 了 确保 所 有 生成 的 数据 会 被 及 时 地 读 取 (你 的 需求 决定 了 “及 时 ”的 具体 
含义 )。 为 了 确保 数据 能 够 被 及 时 读 取 ， 你 需要 知道 数据 是 什么 时 候 生 成 的 。0.10.0 版 本 
的 Kafka 在 消息 里 增加 了 时 间 惟 ,表明 了 消息 的 生成 时 间 。 如 果 你 使 用 的 是 更 早 版 本 的 
客户 端 ， 我 们 建议 自己 在 消息 里 加 入 时 间 惟 、 应 用 程序 的 名 字 和 机 器 名 ， 这 样 有 助 于 将 
来 诊断 问题 。 

为 了 确保 所 有 消息 能 够 在 合理 的 时 间 内 被 读 取 ， 应 用 程序 需要 记录 生成 消息 的 数量 (一 般 
用 每 秒 多 少 个 消息 来 表示 )， 而 消费 者 需要 记录 已 读 取消 息 的 数量 (也 用 每 秒 多 少 个 消息 
来 表示 ) 以 及 消息 生成 时 间 (生成 消息 的 时 间 ) 到 当前 时 间 ( 读 取 消息 的 时 间 ) 之 间 的 时 
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间 差 。 然 后 ， 你 需要 使 用 工具 来 比较 生产 者 和 消费 者 记录 的 消息 数量 (为 了 确保 没有 丢失 
消息 ) ， 确 保 这 两 者 之 间 的 时 间 差 不 会 超出 我 们 允许 的 范围 。 为 了 做 到 更 好 的 监控 ， 我 们 
可 以 增加 一 个 “监控 消费 者 ”"， 这 个 消费 者 订阅 一 个 特别 的 主题 ， 它 只 进行 消息 的 计数 操 
作 ， 并 把 数值 与 生成 的 消息 数量 进行 对 比 ， 这 样 我 们 就 可 以 在 没有 消费 者 的 情况 下 仍然 能 
够 准确 地 监控 生产 者 。 这 种 端 到 端的 监控 系统 实现 起 来 很 耗费 时 间 ， 有 具有 一 定 挑战 性 。 据 
我 们 所 知 ， 目 前 还 没有 开源 的 实现 。Confluent 提供 了 一 个 商业 的 实现 版 本 ， 它 是 Confluent 
Control Center 的 一 部 分 。 


6.7 总 结 


正如 我 们 在 本 章 开头 所 说 的 ， 可 靠 性 并 不 只 是 Kafka 单方 面 的 事情 。 我 们 应 该 从 整个 系统 
层面 来 考虑 可 靠 性 问题 ， 包 括 应 用 程序 的 架构 、 生 产 者 和 消费 者 API 的 使 用 方式 、 生 产 
者 和 消费 者 的 配置 、 主 题 的 配置 以 及 broker 的 配置 。 系 统 的 可 靠 性 需要 在 许多 方面 作出 权 
衡 ， 比 如 复杂 性 、 性 能 、 可 用 性 和 磁盘 空间 的 使 用 。 掌 握 Kafka 的 各 种 配置 和 常用 模式 ， 
对 使 用 场景 的 需求 做 到 心中 有 数 ， 你 就 可 以 在 应 用 程序 和 Kafka 的 可 靠 性 程度 以 及 各 种 权 
衡 之 间作 出 更 好 的 选择 。 
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构建 数据 管道 





在 使 用 Kafka 构建 数据 管道 时 ， 通 常 有 两 种 使 用 场景 : 第 一 种 ， 把 Kafka 作为 数据 管道 的 
两 个 端点 之 一 ， 例 如 ， 把 Kafka 里 的 数据 移动 到 S3 上 ， 或 者 把 MongoDB 里 的 数据 移动 
到 Kafka 里 ， 第 二 种 ， 把 Kafka 作为 数据 管道 两 个 端点 的 中 间 媒 介 ， 例 如 ， 为 了 把 Twitter 
的 数据 移动 到 ElasticSearch 上 ， 需 要 先 把 它们 移动 到 Kafka 里 ， 再 将 它们 从 Kafka 移动 到 
ElasticSearch 上 。 


LinkedIn 和 其 他 一 些 大 公司 都 将 Kafka 用 在 上 述 两 种 场景 中 ， 后 来 ， 我 们 在 0.9 版 本 的 
Kafka 里 增加 了 Kafka Connect (以 下 简称 Connect) 。 我 们 注意 到 ， 企 业 在 将 Kafka 与 数据 
管道 进行 集成 时 总 会 磁 到 一 些 特 定 的 问题 ， 所 以 决定 往 Kafka 里 增加 一 些 API 来 帮助 他 们 
解决 这 些 问题 ， 而 不 是 等 着 他 们 提出 这 些 问题 。 

Kafka 为 数据 管道 带 来 的 主要 价值 在 于 ， 它 可 以 作为 数据 管道 各 个 数据 段 之 间 的 大 型 缓冲 
区 ， 有 效 地 解 而 管道 数据 的 生产 者 和 消费 者 。Kafka 的 解 而 能 力 以 及 在 安全 和 效率 方面 的 
可 靠 性 ， 使 它 成 为 构建 数据 管道 的 最 佳 选择 。 


数据 集成 的 场景 


有 些 组 织 把 Kafka 看 成 是 数据 管道 的 一 个 端点 ， 他 们 会 想 “ 我 怎么 才能 把 数 
据 从 Kafka 移 到 ElasticSearch 里 ”。 这 么 想 是 理所当然 的 一 一 特别 是 当 你 需 
要 的 数据 在 到 达 ElasticSearch 之 前 还 停留 在 Kafka 里 的 时 候 ， 其 实 我 们 也 是 
这 么 想 的 。 不 过 我 们 要 讨论 的 是 如 何在 更 大 的 场景 里 使 用 Kafka， 这 些 场景 
至 少 包 含 两 个 端点 (可 能 会 更 多 )， 而 且 这 些 端 点 都 不 是 Kafka。 对 于 那些 面 
临 数 据 集 成 问题 的 人 来 说 ， 我 们 建议 他 们 从 大 局 考虑 问题 ， 而 不 只 是 把 注意 
力 集 中 在 少量 的 端点 上 。 过 度 聚焦 在 短期 问题 上 ， 只 会 增加 后 期 维护 的 复杂 
性 ， 付 出 更 高 的 成 本 。 
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本 章 将 讨论 在 构建 数据 管道 时 需要 考虑 的 几 个 常见 问题 。 这 些 问 题 并 非 Kafka 独 有 ， 它 们 
都 是 与 数据 集成 相关 的 一 般 性 问题 。 我 们 将 解释 为 什么 可 以 使 用 Kafka 进行 数据 集成 ， 以 
及 它 是 如 何 解 决 这 些 问 题 的 。 我 们 将 讨论 Connect API 与 普通 的 客户 端 API (Producer 和 
Consumer) 之 间 的 区 别 ， 以 及 这 些 客户 端 API 分 别 适合 在 什么 情况 下 使 用 。 然 后 我 们 会 介 
绍 Connect。Connect 的 完整 手册 不 在 本 章 的 讨论 范围 之 内 ， 不 过 我 们 会 举 几 个 例子 来 帮助 
你 入 门 ， 而 且 会 告诉 你 可 以 从 哪里 了 解 到 更 多 关于 Connect 的 信息 。 最 后 介绍 其 他 数据 集 
成 系统 ， 以 及 如 何 将 它们 与 Kafka 集成 起 来 。 


7.1 构建 数据 管道 时 需要 考虑 的 问题 


本 书 不 打算 讲解 所 有 有 关 构 建 数据 管道 的 细节 ， 我 们 会 着 重 讨 论 在 集成 多 个 系统 时 需要 考 
虑 的 几 个 最 重要 的 问题 。 


7.1.1 及 时 性 

有 些 系统 希望 每 天 一 次 性 地 接收 大 量 数据 ， 而 有 些 则 希望 在 数据 生成 几 毫 秒 之 内 就 能 拿 到 
它们 。 大 部 分 数据 管道 介 于 这 两 者 之 间 。 一 个 好 的 数据 集成 系统 能 够 很 好 地 支持 数据 管道 
的 各 种 及 时 性 需求 ， 而 且 在 业务 需求 发 生变 更 时 ， 有 具有 不 同 及 时 性 需求 的 数据 表 之 间 可 以 
方便 地 进行 迁移 。Kafka 作为 一 个 基于 流 的 数据 平台 ， 提 供 了 可 靠 且 可 伸缩 的 数据 存储 ， 
可 以 支持 几 近 实时 的 数据 管道 和 基于 小 时 的 批 处 理 。 生 产 者 可 以 频繁 地 向 Kafka 写 入 数 
据 ， 也 可 以 按 需 写 入 ; 消费 者 可 以 在 数据 到 达 的 第 一 时 间 读 取 它 们 ， 也 可 以 每 隔 一 段 时 间 
读 取 一 次 积压 的 数据 。 
Kafka 在 这 里 扮演 了 一 个 大 型 缓冲 区 的 角色 ， 降 低 了 生产 者 和 消费 者 之 间 的 时 间 敏 感度 。 
实时 的 生产 者 和 基于 批 处 理 的 消费 者 可 以 同时 存在 ， 也 可 以 任意 组 合 。 实 现 回 压 策略 也 因 
此 变 得 更 加 容易 ，Kafka 本 身 就 使 用 了 回 压 策略 (必要 时 可 以 延 后 向 生产 者 发 送 确认 )， 消 
费 速 率 完全 取决 于 消费 者 自己 。 


7.1.2 可靠 性 

我 们 要 避免 单 点 故障 ， 并 能 够 自动 从 各 种 故障 中 快速 恢复 。 数 据 通过 数据 管道 到 达 业 务 系 
统 ， 哪 怕 出 现 儿 秒 钟 的 故障 ， 也 会 造成 灾难 性 的 影响 ， 对 于 那些 要 求 毫秒 级 的 及 时 性 系统 
来 说 尤为 如 此 。 数 据 传递 保证 是 可 靠 性 的 另 一 个 重要 因素 。 有 些 系统 人 允许 数据 丢失 ， 不 过 
在 大 多 数 情 况 下 ， 它 们 要 求 至 少 一 次 传递 。 也 就 是 说 ， 源 系统 的 每 一 个 事件 都 必须 到 达 目 
的 地 ， 不 过 有 时 候 需 要 进行 重 试 ， 而 重 试 可 能 造成 重复 传递 。 有 些 系统 甚至 要 求 仅 一 次 传 
递 源 系统 的 每 一 个 事件 都 必须 到 达 目 的 地 ， 不 允许 丢失 ， 也 不 允许 重复 。 

我 们 已 经 在 第 6 章 深 入 讨论 了 Kafka 的 可 用 性 和 可 靠 性 保证 。Kafka 本 身 就 支持 “至 少 一 
次 传递 "， 如 果 再 结合 具有 事务 模型 或 唯一 键 特性 的 外 部 存储 系统 ，Kafka 也 能 实现 “ 仅 一 
次 传递 "-。 因 为 大 部 分 的 端点 都 是 数据 存储 系统 ， 它 们 提供 了 “ 仅 一 次 传递 ”的 原 语 支持 ， 
所 以 基于 Kafka 的 数据 管道 也 能 实现 “ 仅 一 次 传递 ”。 值 得 一 提 的 是 ，Connect API 为 集成 
外 部 系统 提供 了 处 理 偏 移 量 的 API， 连 接 器 因此 可 以 构建 仅 一 次 传递 的 端 到 端 数据 管道 。 
实际 上 ， 很 多 开源 的 连接 器 都 支持 仅 一 次 传递 。 
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7.1.3 高 吞吐 量 和 动态 吞吐 量 


为 了 满足 现代 数据 系统 的 要 求 ， 数 据 管道 需要 支持 非常 高 的 春 吐 量 。 更 重要 的 是 ， 在 某 些 
情况 下 ， 数 据 管道 还 需要 能 够 应 对 突 发 的 吞吐 量 增长 。 


由 于 我 们 将 Kafka 作为 生产 者 和 消费 者 之 间 的 缓冲 区 ， 消 费 者 的 否 吐 量 和 生产 者 的 否 吐 量 
就 不 会 耦合 在 一 起 了 。 我 们 也 不 再 需要 实现 复杂 的 回 压 机 制 ， 如 有 果 生 产 者 的 吞吐 量 超过 了 
消费 者 的 吞吐 量 ， 可 以 把 数据 积压 在 Kafka 里 ， 等 待 消费 者 追赶 上 来 。 通 过 增加 额外 的 消 
费 者 或 生产 者 可 以 实现 Kafka 的 伸缩 ， 因 此 我 们 可 以 在 数据 管道 的 任何 一 边 进行 动态 的 伸 
缩 ， 以 便 满足 持续 变化 的 需求 。 

因为 Kafka 是 一 个 高 吞吐 量 的 分 布 式 系 统 ， 一 个 适当 规模 的 集群 每 秒 钟 可 以 处 理 数 百 兆 的 
数据 ， 所 以 根本 无 需 担 心 数据 管道 无 法 满足 伸缩 性 需求 。 另 外 ，Connect API 不 仅 支持 1 
缩 ， 而 且 擅 长 并 行 处 理 任务 。 稍 后 ， 我 们 将 会 介绍 数据 源 和 数据 池 (Data Sink) 如 何在 多 
个 线程 间 拆 分 任务 ， 最 大 限度 地 利用 CPU 资源 ， 哪 怕 是 运行 在 单 台 机 器 上 。 


Kafka 支持 多 种 类 型 的 压缩 ， 在 增长 吞吐 量 时 ，Kafka 用 户 和 管理 员 可 以 通过 压缩 来 调整 网 
络 和 存储 资源 的 使 用 。 


7.1.4 数据 格式 


数据 管道 需要 协调 各 种 数据 格式 和 数据 类 型 ， 这 是 数据 管道 的 一 个 非常 重要 的 因素 。 数 据 
类 型 取决 于 不 同 的 数据 库 和 数据 存储 系统 。 你 可 能 会 通过 Avro 将 XML 或 关系 型 数据 加 载 
到 Kafka 里 ， 然 后 将 它们 转 成 JSON 写 入 ElasticSearch， 或 者 转 成 Parquet 写 入 HDFS, 或 
者 转 成 CSV 写 和 人 S3。 


Kafka 和 Connect API 与 数据 格式 无 关 。 我 们 已 经 在 之 前 的 章节 介绍 过 ， 生 产 者 和 消费 者 可 
以 使 用 各 种 序列 化 器 来 表示 任意 格式 的 数据 。Connect API 有 自己 的 内 存 对 象 模型 ， 包 括 
数据 类 型 和 schema。 不 过 ， 可 以 使 用 一 些 可 插 拔 的 转换 器 将 这 些 对 象 保 存 成 任意 的 格式 ， 
也 就 是 说 ， 不 管 数据 是 什么 格式 的 ， 都 不 会 限制 我 们 使 用 连接 器 。 

很 多 数据 源 和 数据 池 都 有 schema， 我 们 从 数据 源 读 取 schema， 把 它们 保存 起 来 ， 并 用 它 
们 验证 数据 格式 的 兼容 性 ， 甚 至 用 它们 更 新 数据 池 的 schema。 从 MySQL 到 Hive 的 数据 
管道 就 是 一 个 很 好 的 例子 。 如 果 有 人 在 MySQL 里 增加 了 一 个 字段 ， 那 么 在 加 载 数据 时 ， 
数据 管道 可 以 保证 Hive 里 也 添加 了 相应 的 字段 。 


男 外， 数据 池 连 接 器 将 Kafka 的 数据 写 入 外 部 系统 ， 因 此 需要 负责 处 理 数 据 格式 。 有 些 连 
接 器 把 数据 格式 的 处 理 做 成 可 播 拔 的 ， 比 如 HDFS 的 连接 器 就 支持 Avro 和 Parquet。 


通用 的 数据 集成 框架 不 仅 要 支持 各 种 不 同 的 数据 类 型 ， 而 且 要 处 理 好 不 同 数据 源 和 数据 池 
之 间 的 行为 差异 。 例 如 ， 在 关系 型 数据 库 向 Syslog 发 起 抓 取 数据 请 求 时 ，Syslog 会 将 数据 
推送 给 它们 ， 而 HDFS 只 支持 追加 写 入 模式 ， 只 能 向 HDFS 写 入 新 数据 ， 而 对 于 其 他 很 多 
系统 来 说 ， 既 可 以 追加 数据 ， 也 可 以 更 新 已 有 的 数据 。 
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7.1.5 转换 


数据 转换 比 其 他 需求 更 具 争 议 性 。 数 据 管道 的 构建 可 以 分 为 两 大 阵营 ， 即 ETL 和 ELT。 
ETL 表示 提取 一 转换 一 加 载 (Extract-Transform-Load) ， 也 就 是 说 ， 当 数据 流 经 数据 管道 
时 ， 数 据 管道 会 负责 处 理 它 们 。 这 种 方式 为 我 们 节省 了 时 间 和 存储 空间 ， 因 为 不 需要 经 过 
保存 数据 、 修 改 数 据 、 再 保存 数据 这 样 的 过 程 。 不 过 ， 这 种 好 处 也 要 视 情 况 而 定 。 有 时 
候 ， 这 种 方式 会 给 我 们 带 来 实 实在 在 的 好 处 ， 但 也 有 可 能 给 数据 管道 造成 不 适当 的 计算 和 
存储 负担 。 这 种 方式 有 一 个 明显 不 足 ， 就 是 数据 的 转换 会 给 数据 管道 下 游 的 应 用 造成 一 些 
限制 ， 特 别 是 当下 游 的 应 用 希望 对 数据 进行 进一步 处 理 的 时 候 。 假 设 有 人 在 MongoDB 和 
MySQL 之 间 建 立 了 数据 管道 ， 并 且 过 滤 掉 了 一 些 事 件 记 录 ， 或 者 移 除了 一 些 字 段 ， 那 么 
下 游 应 用 从 MySQL 中 访问 到 的 数据 是 不 完整 的 。 如 果 它 们 想 要 访问 被 移 除 的 字段 ， 只 能 
重新 构建 管道 ， 并 重新 处 理 历史 数据 (如 果 可 能 的 话 )。 


ELT 表示 提取 -加 载 -转换 (Extract-Load-Transform)。 在 这 种 模式 下 ， 数 据 管 道 只 做 少量 的 
转换 (主要 是 数据 类 型 转换 )， 确 保 到 达 数 据 池 的 数据 尽 可 能 地 与 数据 源 保持 一 致 。 这 种 
情况 也 被 称 为 高 保 真 (high fidelity) 数据 管道 或 数据 湖 (data lake) 架构 。 目 标 系统 收集 
“原始 数据 *”， 并 负责 处 理 它们 。 这 种 方式 为 目标 系统 的 用 户 提供 了 最 大 的 灵活 性 ， 因 为 它 
们 可 以 访问 到 完整 的 数据 。 在 这 些 系 统 里 诊断 问题 也 变 得 更 加 容易 ， 因 为 数据 被 集中 在 同 
一 个 系统 里 进行 处 理 ， 而 不 是 分 散在 数据 管道 和 其 他 应 用 里 。 这 种 方式 的 不 足 在 于 ， 数 据 
的 转换 占用 了 目标 系统 太 多 的 CPU 和 存储 资源 。 有 时 候 ， 目 标 系统 造价 高 昂 ， 如 果 有 可 
能 ， 人 们 希望 能 够 将 计算 任务 移出 这 些 系统 。 


7.1.6 ”安全 性 

安全 性 是 人 们 一 直 关心 的 问题 。 对 于 数据 管道 的 安全 性 来 说 ， 人 们 主要 关心 如 下 几 个 

方面 。 

。 我 们 能 否 保证 流 经 数据 管道 的 数据 是 经 过 加 密 的 ?这 是 跨 数据 中 心 数据 管道 通常 需要 考 
虑 的 一 个 主要 方面 。 

。 谁 能 够 修改 数据 管道 ? 

。 如 果 数 据 管道 需要 从 一 个 不 受信 任 的 位 置 读 取 或 写 入 数据， 是 否 有 适当 的 认证 机 制 ? 

Kafka 支持 加 密 传输 数据 ， 从 数据 源 到 Kafka， 再 从 Kafka 到 数据 地 。 它 还 支持 认证 (通过 

SASL 来 实现 ) 和 授权 ， 所 以 你 可 以 确信 ， 如 果 一 个 主题 包含 了 敏感 信息 ， 在 不 经 授权 的 

情况 下 ， 数 据 是 不 会 流 到 不 安全 的 系统 里 的 。Kafka 还 提供 了 审计 日 志 用 于 跟踪 访问 记录 。 

通过 编写 额外 的 代码 ， 还 可 能 跟踪 到 每 个 事件 的 来 源 和 事件 的 修改 者 ， 从 而 在 每 个 记录 之 

间 建 立 起 整体 的 联系 。 


7.1.7 ”故障 处 理 能 

我 们 不 能 总 是 假设 数据 是 完美 的 ， 而 要 事先 做 好 应 对 故障 的 准备 。 能 否 总 是 把 缺损 的 数 
据 挡 在 数据 管道 之 外 ?” 能 否 恢复 无 法 解析 的 记录 ? 能 否 修复 (或 许可 以 手动 进行 ) 并 重 
新 处 理 缺 损 的 数据 ? 如 果 在 若干 天 之 后 才 发 现 原先 看 起 来 正常 的 数据 其 实 是 缺损 数据 ， 
该 怎么 办 ? 
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因为 Kafka 会 长 时 间 地 保留 数据 ， 所 以 我 们 可 以 在 适当 的 时 候 回 过 头 来 重新 处 理 出 错 
的 数据 。 


7.1.8 耦合 性 和 灵活 性 

数据 管道 最 重要 的 作用 之 一 是 解 耦 数 据 源 和 数据 池 。 它 们 在 很 多 情况 下 可 能 发 生 耦 合 。 

临时 数据 管道 
有 些 公 司 为 每 一 对 应 用 程序 建立 单独 的 数据 管道 。 例 如 ， 他 们 使 用 Logstash 向 
ElasticSearch 导入 日 志 ， 使 用 Flume 向 HDFS 导入 日 志 ， 使 用 GoldenGate 将 Oracle 的 
数据 导 到 HDFS， 使 用 Informatica 将 MySQL 的 数据 或 XML 导 到 Oracle， 等 等 。 他 们 
将 数据 管道 与 特定 的 端点 耦合 起 来 ， 并 创建 了 大 量 的 集成 点 ， 需 要 额外 的 部 署 、 维 护 和 
监控 。 当 有 新 的 系统 加 入 时 ， 他 们 需要 构建 额外 的 数据 管道 ， 从 而 增加 了 采用 新 技术 的 
成 本 ， 同 时 遏制 了 创新 。 

元 数据 丢失 
如 果 数 据 管道 没有 保留 schema 元 数据 ， 而 且 不 允许 schema 发 生变 更 ， 那 么 最 终 会 导 
致 生产 者 和 消费 者 之 间 发 生 紧 密 的 而 合 。 没 有 了 schema， 生 产 者 和 消费 者 需要 额外 的 
信息 来 解析 数据 。 假 设 数据 从 Oracle 流向 HDFS， 如 果 DBA 在 Oracle 里 添加 了 一 个 字 
段 ， 而 且 没 有 保留 schema 信息 ， 也 不 允许 修改 shema， 那 么 从 HDFS 读 取 数据 时 可 能 
会 发 生 错误 ， 因 此 需要 双方 的 开发 人 员 同 时 升级 应 用 程序 才能 解决 这 个 问题 。 不 管 是 哪 
一 种 情况 ， 它 们 的 解决 方案 都 不 具备 灵活 性 。 如 果 数 据 管道 允许 schema 发 生变 更 ， 应 
用 程序 各 方 就 可 以 修改 自己 的 代码 ， 无 需 担 心 对 整个 系统 造成 破坏 。 

末 闯 处 理 
我 们 在 讨论 数据 转换 时 就 已 提 到 ， 数 据 管道 难免 要 做 一 些 数据 处 理 。 在 不 同 的 系统 之 间 
移动 数据 肯定 会 磁 到 不 同 的 数据 格式 和 不 同 的 应 用 场景 。 不 过 ， 如 果 数 据 管道 过 多 地 处 
理 数据 ， 那 么 就 会 给 下 游 的 系统 造成 一 些 限制 。 在 构建 数据 管道 时 所 做 的 设计 决定 都 会 
对 下 游 的 系统 造成 束缚 ， 比 如 应 该 保留 哪些 字段 或 应 该 如 何 聚 合 数 据 ， 等 等 。 如 果 下 游 
的 系统 有 新 的 需求 ， 那 么 数据 管道 就 要 作出 相应 的 变更 ， 这 种 方式 不 仅 不 灵活 ， 而 且 低 
效 、 不 安全 。 更 为 灵活 的 方式 是 尽量 保留 原始 数据 的 完整 性 ， 让 下 游 的 应 用 自己 决定 如 
何 处 理 和 聚合 数据 。 


7.2 ”如 何在 Connect API 和 客户 端 API 之 间作 出 选择 


在 向 Kafka 写 入 数据 或 从 Kafka 读 取 数 据 时 ， 要 么 使 用 传统 的 生产 者 和 消费 者 客户 端 ， 就 
像 第 3 章 和 第 4 章 所 描述 的 那样 ， 要 么 使 用 后 面 即将 介绍 的 Connect API 和 连接 器 。 在 具 
体 介绍 Connect API 之 前 ， 我 们 不 妨 先 问 自己 一 个 问题 “什么 时 候 适 合用 哪 一 个 ?” 


我 们 知道 ，Kafka 客户 端 是 要 被 内 岁 到 应 用 程序 里 的 ， 应 用 程序 使 用 它们 向 Kafka 写 入 数 
据 或 从 Kafka 读 取 数据 。 如 果 你 是 开发 人 员 ， 你 会 使 用 Kafka 客户 端 将 应 用 程序 连接 到 
Kafka， 并 修改 应 用 程序 的 代码 ， 将 数据 推送 到 Kafka 或 者 从 Kafka 读 取 数据 。 


如 果 要 将 Kafka 连接 到 数据 存储 系统 ， 可 以 使 用 Connect， 因 为 这 些 系 统 不 是 你 开发 的 ， 
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你 无 法 或 者 也 不 想 修改 它们 的 代码 。Connect 可 以 用 于 从 外 部 数据 存储 系统 读 取 数 据 ， 或 
者 将 数据 推送 到 外 部 存储 系统 。 如 果 数 据 存储 系统 提供 了 相应 的 连接 器 ， 那 么 非 开 发 人 员 
就 可 以 通过 配置 连接 器 的 方式 来 使 用 Connect。 


如 果 你 要 连接 的 数据 存储 系统 没有 相应 的 连接 器 ， 那 么 可 以 考虑 使 用 客户 端 API 或 
Connect API 开发 一 个 应 用 程序 。 我 们 建议 首选 Connect， 因 为 它 提 供 了 一 些 开 箱 即 用 的 
特性 ， 比 如 配置 管理 、 偏 移 量 存储 、 并 行 处 理 、 错 误 处 理 ， 而 且 支 持 多 种 数据 类 型 和 标准 
的 REST 管理 API。 开发 一 个 连接 Kafka 和 外 部 数据 存储 系统 的 小 应 用 程序 看 起 来 很 简单 ， 
但 其 实 还 有 很 多 细节 需要 处 理 ， 比 如 数据 类 型 和 配置 选项 ， 这 些 无 疑 加 大 了 开发 的 复杂 
性 Connect 处 理 了 大 部 分 细节 ， 让 你 可 以 专注 于 数据 的 传输 。 


7.3 Kafka Connect 


Connect 是 Kafka 的 一 部 分 ， 它 为 在 Kafka 和 外 部 数据 存储 系统 之 间 移 动 数 据 提 供 了 一 种 
可 靠 且 可 伸缩 的 方式 。 它 为 连接 器 插件 提供 了 一 组 API 和 一 个 运行 时 Connect 负责 运 
行 这 些 插 件 ， 它 们 则 负责 移动 数据 。Connect 以 worker 进程 集群 的 方式 运行 ， 我 们 基于 
worker 进程 安装 连接 器 插件 ， 然 后 使 用 REST API 来 管理 和 配置 connector， 这 些 worker 
进程 都 是 长 时 间 持 续 运 行 的 作业 。 连 接 器 启动 额外 的 task， 有 效 地 利用 工作 市 点 的 资源 ， 
以 并 行 的 方式 移动 大 量 的 数据 。 数 据 源 的 连接 器 负责 从 源 系统 读 取 数据 ， 并 把 数据 对 和 象 
提供 给 worker 进程 。 数 据 池 的 连接 器 负责 从 worker 进程 获取 数据 ， 并 把 它们 写 入 目标 
系统 。Connect 通过 connector 在 Kafka 里 存储 不 同 格式 的 数据 。Kafka 支持 JSON， 而 且 
Confluent Schema Registry 提供 了 Avro 转换 器 。 开 发 人 员 可 以 选择 数据 的 存储 格式 ， 这 些 
完全 独立 于 他 们 所 使 用 的 连接 器 

本 章 的 内 容 无 法 完全 覆盖 Connect 的 所 有 细节 和 各 种 连接 器 ， 这 些 内 容 可 以 单独 写成 一 
本 书 。 不 过 ， 我 们 会 提供 Connect 的 概览 ， 还 会 介绍 如 何 使 用 它 ， 并 提供 一 些 额外 的 参 
考 资 料 。 









































































































































7.3.1 运行 Connect 


Connect 随 着 Kafka 一 起 发 布 ， 所 以 无 需 单 独 安 装 。 如 果 你 打算 在 生产 环境 使 用 Connect 来 
移动 大 量 的 数据 ， 或 者 打算 运行 多 个 连接 器 ， 那 么 最 好 把 Connect 部 署 在 独立 于 broker 的 
服务 右上。 在 所 有 的 机 器 上 安装 Kafka， 并 在 部 分 服务 器 上 启动 broker， 然 后 在 其 他 服务 
器 上 启动 Connect。 

启动 Connect 进程 与 启动 broker 差不多 ， 在 调用 脚本 时 传 入 一 个 属性 文件 即 可 。 


bin/connect-distributed.sh config/connect-distributed.properties 
Connect 进程 有 以 下 几 个 重要 的 配置 参数 。 


。 bootstrap.servers: 该 参数 列 出 了 将 要 与 Connect 协同 工作 的 broker 服务 器 ， 连 接 器 将 
会 向 这 些 broker 写 入 数据 或 者 从 它们 那里 读 取 数 据 。 你 不 需要 指定 集群 所 有 的 broker， 
不 过 建议 至 少 指定 3 个 




















。 group.id: 具有 相同 group id 的 worker 属于 同一 个 Connect 集群 。 集 群 的 连接 器 和 它们 
的 任务 可 以 运行 在 任意 一 个 worker 上 。 

。 key.converter 和 value.converter: Connect 可 以 处 理 存 储 在 Kafka 里 的 不 同 格 式 的 
数据 。 这 两 个 参数 分 别 指定 了 消息 的 键 和 值 所 使 用 的 转换 器 。 默 认 使 用 Kafka 提供 的 
JSONConverter， 当 然 也 可 以 配置 成 Confluent Schema Registry 提供 的 AvroConverter。 

有 些 转换 器 还 包含 了 特定 的 配置 参数 。 例 如 ， 通 过 将 key.converter .schema.enablte 设置 成 

true 或 者 false 来 指定 JSON 消息 是 否 可 以 包含 schema。 值 转换 器 也 有 类 似 的 配置 ， 不 过 

它 的 参数 名 是 value.converter.schema.enable。Avro 消息 也 包含 了 schema， 不 过 需要 通 

过 key.converter.schema.registry.url 和 vaLue.converter .schema.registry.urL 来 指定 

Schema Registry 的 位 置 。 


我 们 一 般 通 过 Connect 的 REST API 来 配置 和 监控 rest.host.name 和 rest.port 连接 器 。 
你 可 以 为 REST API 指定 特定 的 端口 。 
在 启动 worker 集群 之 后 ， 可 以 通过 REST API 来 验证 它们 是 否 运行 正常 。 


gwen$ curl http://Llocalhost:8083/ 
{"version":"0.10.1.0-SNAPSHOT","commit":"561f45d747cd2a8c"} 








这 个 REST URI 应 该 要 返回 当前 Connect 的 版 本 号 。 我 运行 的 是 Kafka 0.10.1.0 ( 预 发 行 ) 
快照 版 本 。 我 们 还 可 以 检查 已 经 安装 好 的 连接 器 插件 : 


gwen$ curl http://Llocalhost:8083/connector-plugins 


[{"class":"org.apache.kafka.connect.file.FileStreamSourceConnector"}, 
{"class":"org.apache.kafka.connect.file.FileStreamSinkConnector"}] 


我 运行 的 是 最 简单 的 Kafka， 所 以 只 有 文件 数据 源 和 文件 数据 池 两 种 插件 可 用 。 


让 我 们 先 来 看 看 如 何 配置 和 使 用 这 些 内 置 的 连接 器 ， 然 后 再 提供 一 些 使 用 外 部 数据 存储 系 
统 的 高 级 示例 。 


单机 模式 


要 注意 ，Connect 也 支持 单机 模式 。 单 机 模式 与 分 布 式 模式 类 似 ， 只 是 在 启 
动 时 使 用 bin/connect-standalone.sh 代替 bin/connect-distributed.sh,， 也 
可 以 通过 命令 行 传 人 连接 器 的 配置 文件 ， 这 样 就 不 需要 使 用 REST API 了 。 
在 单机 模式 下 ， 所 有 的 连接 器 和 任务 都 运行 在 单独 的 worker 进程 上 。 单 机 
模式 使 用 起 来 更 简单 ， 特 别 是 在 开发 和 诊断 问题 的 时 候 ， 或 者 是 在 需要 让 连 
接 器 和 任务 运行 在 某 台 特定 机 器 上 的 时 候 (比如 Syslog 连接 器 会 监听 某 个 端 
口 ， 所 以 你 需要 知道 它 运 行 在 哪 台 机 器 上 )。 














































































































7.3.2 ”连接 器 示例 一 一 文件 数据 源 和 文件 数据 池 


这 个 例子 使 用 了 文件 连接 器 和 JSON 转换 器 ， 它 们 都 是 Kafka 自 带 的 。 接 下 来 要 确保 
Zookeeper 和 Kafka 都 处 于 运行 状态 。 
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首先 局 动 一 个 分 布 式 的 worker 进程 。 为 了 实现 高 可 用 性 ， 真 实 的 生产 环境 一 般 需 要 至 少 
2~3 个 worker 集群 。 不 过 在 这 个 例子 里 ， 我 们 只 启动 1 个 。 


bin/connect-distributed.sh config/connect-distributed.properties & 


现在 开始 启动 一 个 文件 数据 源 。 为 了 方便 ， 直 接 让 它 读 取 Kafka 的 配置 文件 一 一 把 Kafka 
的 配置 文件 内 容 发 送 到 主题 上 。 


echo '{"name":"load-kafka-config", "config":{"connector.class":"FileStream- 
Source","file":"config/server.properties","topic":"kafka-config-topic"}}' | 
curl -X POST -d @- http://localhost:8083/connectors --header "content- 


Type:application/json" 








"name":"load-kafka-config","config":{"connector.class":"FileStream- 


Source","file":"config/server.properties","topic":"kafka-config- 
topic", "name":"load-kafka-config"},"tasks":[]} 


我 写 了 一 个 JSON 片段 ， 里 面包 含 了 连接 器 的 名 字 toad-kafka-config 和 连接 器 的 配置 信 
息 ， 配 置信 息 包含 了 连接 器 的 类 名 、 需 要 加 载 的 文件 名 和 主题 的 名 字 。 
下 面 通过 Kafka 的 控制 台 消费 者 来 验证 配置 文件 是 否 已 经 被 加 载 到 主题 上 了 ; 


gwens$ bin/kafka-console-consumer.sh --new --bootstrap-server=LocaLhost:9092 -- 
topic kafka-config-topic --from-beginning 


如 果 一 切 正常 ， 可 以 看 到 如 下 的 输出 : 


{"schema":{"type":"string","optional":false},"payload":"# Licensed to the 
Apache Software Foundation (ASF) under one or more"} 





























< 省 略 部 分 > 

















{"schema":{"type":"string","optional":false},"pay- 

TLoad":"## 间 #### 间 #### 间 #### 间 六 ### 间 ## 间 # 间 # 闪 ####### Server Basics 

闪 ########### 间 ## 闪 间 间 检 并 间 间 闪 间 间 闪 闪 间 间 闪 闪 间 间 "} 
{"schema":{"type":"string","optional":false},"payload":""} 
{"schema":{"type":"string","optional":false},"payload":"# The id of the broker. 
This must be set to a unique integer for each broker."} 
{"schema":{"type":"string","optional":false},"payload":"broker .id=0"} 


{"schema":{"type":"string","optional":false},"payload":""} 

< 省 略 部 分 > 

以 上 输出 的 是 config/server.properties 文件 的 内 容 ， 这 些 内 容 被 一 行 一 行 地 转 成 JSON 
记录 ， 并 被 连接 器 发 送 到 kafka-config-topic 主题 上 。 默 认 情 况 下 ，JSON 转换 器 会 在 每 
个 记录 里 附带 上 schema。 这 里 的 schema 非常 简单 一 一 只 有 一 个 payload 列 ， 它 是 字符 串 
类 型 ， 并且 包含 了 文件 里 的 一 行内 容 。 

现在 使 用 文件 数据 池 的 转换 器 把 主题 里 的 内 容 导 到 文件 里 。 导 出 的 文件 内 容 应 该 与 原始 
server.properties 文件 的 内 容 完 全 一 样 ，JSON 转化 器 将 会 把 每 个 JSON 记录 转 成 单行 
文本 5 


echo '{"name":"dump-kafka-config", "config": 



































大 
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{"connector.class":"FileStreamSink","file":"copy-of-server- 
properties","topics":"kafka-config-topic"}}' | curl -X POST -d @- http://local- 
host:8083/connectors --header "content-Type:application/json" 


"name":"dump-kafka-config","config": 
{"connector.class":"FileStreamSink","file":"copy-of-server- 


kafka-config-topic","name":"dump-kafka-config"},"tasks": 


properties","topics": 
[]} 
这 次 的 配置 发 生 了 变化 : 我 们 使 用 了 类 名 FiLestreamSink， 而 不 是 FileStreamSource; 文 
件 属性 指向 目标 文件 ， 而 不 是 原先 的 文件 ， 我 们 指定 了 topics， 而 不 是 topic。 可 以 使 用 
数据 池 将 多 个 主题 写 入 一 个 文件 ， 而 一 个 数据 源 只 允许 被 写 和 一 个 主题 。 
如 果 一 切 正常 ， 你 会 得 到 一 个 叫 作 copy-of-server-properties 的 文件 ， 该 文件 的 内 容 与 


?全 


config/server.properties 完全 一 样 。 
如 果 要 删除 一 个 连接 器 ， 可 以 运行 下 面 的 命令 : 
curl -X DELETE http://LocaLhost:8083/connectors/dump-kafka-config 


在 删除 连接 器 之 后 ， 如 果 查 看 Connect 的 日 志 ， 你 会 发 现 其 他 的 连接 器 会 重启 它们 的 任务 。 
这 是 为 了 在 worker 进程 间 平 衡 剩余 的 任务 ， 确 保 删 除 连 接 器 之 后 可 以 保持 负载 的 均衡 。 


7.3.3 ”连接 器 示例 一 一 从 MySQL 到 ElasticSearch 


接 下 来 ， 我 们 要 做 一 些 更 有 用 的 事情 。 这 次 ， 我 们 将 一 个 MySQL 的 表 数 据 导入 到 一 个 
Kafka 主题 上 ， 再 将 它们 加 载 到 ElasticSearch 里 ， 然 后 对 它们 的 内 容 进 行 索引 。 


我 是 在 自己 的 Mac 笔记 本 上 运行 测试 的 ， 使 用 了 下 面 的 命令 来 安装 MySQL 和 ElasticSearch: 


brew install mysql 
brew install elasticsearch 


下 一 步 要 确保 已 经 有 可 用 的 连接 器 。 如 果 使 用 的 是 Confluent OpenSource， 这 个 平台 已 经 包 
含 了 相关 的 连接 器 ， 否 则 就 要 从 GitHub 上 下 载 和 安装 。 

(1) 打 开 网 页 https://github.com/confluentinc/kafka-connect-elasticsearch。 

CO) 把 代码 复制 到 本 地 。 

(3) 使 用 mvn install 来 构建 项 目 。 

(4) 按照 相同 的 步骤 安装 JDBC 连接 器 : https://github.com/confluentinc/kafka-connect-jdbc。 


接 下 来 把 每 个 target 目录 下 生成 的 JAR 包 复 制 到 Connect 的 类 路 径 中 。 


gwen$ mkdir Libs 

gwen$ cp ../kafka-connect-jdbc/target/kafka-connect-jdbc-3.1.0-SNAPSHOT.jar 
libs/ 

gwen$ cp ../kafka-connect-elasticsearch/target/kafka-connect- 
elasticsearch-3.2.0-SNAPSHOT-package/share/java/kafka-connect-elasticsearch/* 
libs/ 


如 果 worker 进程 还 没有 启动 ， 需 要 先 启 动 它们 ， 然 后 检查 新 的 连接 器 插件 是 否 已 经 安 
装 成 功 : 
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gwen$ bin/connect-distributed.sh config/connect-distributed.properties & 


gwen$ curl http://localhost:8083/connector-plugins 
[{"class":"org.apache.kafka.connect.file.FileStreamSourceConnector"}, 
{"class":"io.confluent.connect.elasticsearch.ElasticsearchSinkConnector"}, 
{"class":"org.apache.kafka.connect.file.FileStreamSinkConnector"}, 
{"class":"io.confluent.connect.jdbc.JdbcSourceConnector"}] 


从 上 面 的 输出 可 以 看 到 ， 新 的 连接 器 插件 已 经 安装 成 功 了 。JDBC 连接 器 还 需要 一 个 
MySQL 驱动 程序 。 我 们 从 Oracle 网 站 下 载 了 一 个 MySQL 的 JDBC 驱动 程序 ， 并 将 其 解 
压 ， 然 后 把 mysql-connector-java-5.1.40-bin.jar 复制 到 Libs/ 目录 下 。 

下 一 步 要 在 MySQL 里 创建 一 张 表 。 可 以 使 用 JDBC 连接 器 将 其 以 流 的 方式 发 送 给 Kafka。 


gwen$ mysql.server restart 





























mysql> create database test; 
Query OK, 1 row affected (0.00 sec) 


mysql> use test; 

Database changed 

mysql> create table login (username varchar(30), login time datetime); 
Query OK, © rows affected (0.02 sec) 


mysql> insert into login values ('gwenshap', now()); 
Query OK, 1 row affected (0.01 sec) 


mysql> insert into login values ('tpalino', now()); 
Query OK, 1 row affected (0.00 sec) 


mysql> commit; 
Query OK, © rows affected (0.01 sec) 


我 们 创建 了 一 个 数据 库 和 一 张 表 ， 并 插入 了 一 些 测试 数据 。 


接 下 来 要 配置 JDBC 连接 器 。 可 以 从 文档 中 找到 所 有 可 用 的 配置 项 ， 也 可 以 通过 REST 
API 找到 它们 : 


gwens$ curl -X PUT -d "{}" localhost:8083/connector-plugins/JdbcSourceConnector/ 











config/validate --header "content-Type:application/json" | python -m json.tool 
{ 
"configs": [ 
{ 
"definition": { 

"default_value": ""， 
"dependents": []， 
"display_name": "Timestamp Column Name", 
"documentation": "The name of the timestamp column to use 
to detect new or modified rows. This column may not be 
nullable.", 


"group": "Mode", 
"importance": "MEDIUM", 
"name": "timestamp.column.name", 
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"order": 3， 
"required": false, 
"type": "STRING", 
"width": "MEDIUM" 


}， 
< 省 略 部 分 > 


我 们 向 REST API 发 起 验证 连接 器 的 请 求 ， 并 传 给 它 一 个 空 的 配置 ， 得 到 的 是 所 有 可 用 
的 配置 项 ， 并 以 JSON 的 格式 返回 。 为 了 方便 阅读 ， 下 面 使 用 Python 对 JSON 进行 了 格 
式 化 。 


有 了 这 些 信息 ， 就 可 以 创建 和 配置 JDBC 连接 器 


1 





echo '{"name":"mysql-login-connector", "config":{"connector.class":"JdbcSource- 
Connector", neonnection: url":"jdbc:mysql://127.0.0.1:3306/test? 
User=root","mode":"timestamp","table.whitelist":"login","vali- 
date.non.null":false, "timestamp.column.name":"login time","topic.pre- 
fix":"mysql."}}' | curl -X POST -d @- http://localhost:8083/connectors --header 
"content-Type:application/json" 


"name":"mysql-login-connector","config":{"connector.class":"JdbcSourceConnec- 
tor", CE 和 url":"jdbc: Yee ts //127.0.0.1:3306/test? 
User=root","mode":"timestamp","table.whitelist":"login", 

e","timestamp.column.name":"login time","topic.prefix": 
od connector"},"tasks":[]} 


为 了 确保 连接 器 工作 正常 ， 我 们 从 mysqL.Login 主题 上 读 取 数据 。 


gwen$ bin/kafka-console-consumer.sh --new --bootstrap-server=LocaLhost:9092 -- 
topic mysql.login --from-beginning 


validate.non.null":"fal 
mysql.","name":"mysql- 


< 省 略 部 分 > 





{"schema":{"type":"struct","fields": 

[{"type":"string","optional":true, "field":"username"}, 
{"type":"int64","optional":true,"name":"org.apache.kafka.connect.data.Time- 
StAamp" Version: 1,"field":"login time"}],"optional":false,"name":"login"},"pay- 
load":{"username":"gwenshap","login time":1476423962000}} 
{"schema":{"type":"struct","fields": 

[{"type":"string","optional":true, "field":"username"}, 
{"type":"int64","optional":true,"name":"org.apache.kafka.connect.data.Time- 


stamp","version":1,"field":"login time"}],"optional":false,"name":"login"},"pay- 
load":{"username":"tpalino","login time":1476423981000}} 


如 有 果 得 到 一 个 “主题 不 存在 ”的 错误 信息 ， 或 者 看 不 到 任何 数据 ， 可 以 检查 一 下 Connect 
的 日 志 。 


[2016-10-16 19:39:40,482] ERROR Error while starting connector mysqL-Login- 
connector (org.apache.kafka.connect.runtime.WorkerConnector:108) 
org.apache.kafka.connect.errors.ConnectException: java.sql.SQLException: Access 
denied for user 'root;'@'localhost' (using password: NO) 

at io.confluent.connect.jdbc.JdbcSourceConnector.start(JdbcSourceConnec- 
tor .java:78) 








构 


只 
举 
请 
un 
岂 

















我 反复 尝试 了 几 次 才 找 到 正确 的 连接 串 。 如 果 还 有 其 他 问题 ， 请 检查 类 路 径 里 是 否 包含 了 


驱动 程序 ， 
你 会 看 到 ， 








或 者 是 否 有 数据 表 的 读 取 权限 。 
在 连接 器 运行 期 间 ， 向 login 表 插 入 的 数据 会 立即 出 现在 mysql. login 主题 上 。 








。 MySQL 移动 到 Kafka 里 就 算 完 成 了 ， 接 下 来 把 数据 从 Kafka 写 到 ElasticSearch 


里 ， 这 
首先 启动 EE 
gwens 
gwens 
{ 
"Nam 
"clu 
"clu 
"ver 
"n 
"b 
"b 
"b 
" 
}， 
"tag 
} 





会 更 有 意思 。 
lasticSearch， 并 验证 是 否 访问 本 地 端 


elasticsearch & 
curl http://LocaLhost:9200/ 





也 


e"” : "Hammerhead " ， 

ster_name" : "elasticsearch gwen", 

ster_uuid" : "42D5Grx0OQFebf83DYgNL-g"， 

sion"” : { 

umber"” : "2.4.1", 

uild_hash" : "c67dc32e24162035d18d6fele952c4cbcbe79d16",， 
uild_ timestamp" : "2016-09-27T18:57:552"，, 

uild_snapshot" : false, 

Ucene_version"” :; "5.5.2" 


line" : "You Know, for Search" 


下 面 启动 连接 器 














echo 
search 
9200"， 
curl 
Type:a 


"name 
SinkCo 
topics 
"tasks 


'{"name":"elastic-login-connector", "config":{"connector.class":"Elastic- 
SinkConnector","connection.url":"http://Llocalhost: 
"type.name":"mysql-data","topics":"mysql.login","key.ignore":true}}' | 


-X POST -d @- http://Llocalhost:8083/connectors --header "content- 
pplication/json" 


elastic-login-connector","config":{"connector.class":"Elasticsearch- 
ecto wonnectlor. urt": "http: //Tlocalhost:9200","type.name":"mysqldata"," 
":"mysql.login","key.ignore":"true","name":"elastic-loginconnector"}, 
":"elastic- 15gii: connector" "task": 0}]} 


":[{"connector 


这 里 有 一 些 配置 项 需要 解释 一 下 。connection.url 是 本 地 ElasticSearch 服务 器 的 地 址 。 默 





认 情 况 下 ， 
同 。 我 们 需 


每 个 Kafka 主题 对 应 ElasticSearch 里 的 一 个 索引 ， 主 题 的 名 字 与 索引 的 名 字 相 
要 在 主题 内 为 即将 写 入 的 数据 定义 好 类 别 。 我 们 假设 所 有 数据 属于 同一 种 类 


别 ， 所 以 硬 编码 了 一 个 类 别 type.name=mysql-data。 只 有 mysql.login 主题 里 的 数据 会 被 
写 入 ElasticSearch。 另 外 ， 在 创建 MySQL 数据 表 时 没有 为 其 指定 主键 ， 而 Kafka 数据 的 


键 是 null， 





所 以 要 让 ElasticSearch 连接 器 使 用 主题 名 字 、 分 区 id 和 偏 移 量 作为 数据 的 键 。 





同时 ， 需 要 把 key.ignore 设置 为 true。 
先 来 验证 是 否 已 经 为 mysqL.Login 主题 的 数据 创建 好 索引 了 了 。 








gwens$ curl 'localhost:9200/_cat/indices?v' 
health status index pri rep docs.count docs.deleted store.size 
pri.store.size 
yellow open mysqL.Login 5 a1 3 0 10.7kb 
10.7kb 
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如 果 索 引 还 设 有 创建 好 ， 可 以 检查 一 下 Connect 的 日 志 。 如 果 出 现 错误 ， 一 般 都 是 因为 缺 
少 配 置 项 或 依赖 包 。 如 果 一 切 正 常 ， 就 可 以 查询 到 索引 数据 了 。 


gwens$ curl -s -X "GET" "http://Llocalhost:9200/mysql.login/_search?pretty=true" 
{ 
"took"” : 29, 
"timed out" : false, 
"_shards" : { 
"total”® £5 5 
"successful" : 5， 
"failed" : 0 
小 
"NUS 人 下 
"totaL”: 3， 
"max_score" : 1.0， 
"he si 
"_index" : "mysql.login", 
_type”: "mysql-data", 
"_id" : "mysql.login+0+1", 


"_score" :; 1.0， 
"_source"” :{ 
"username" : "tpalino", 
"login time" : 1476423981000 
} 
}, { 
"_index" : "mysql.login", 
"_type" : "mysql-data", 
"_id" : "mysql.login+0+2", 
"_score" : 1.0， 
"_source"” : { 
"username" : "nnarkede", 
"login time" : 1476672246000 
} 
}, { 
"_index" : "mysql.login", 
"_type" : "mysql-data", 
"_id" : "mysql.login+0+0", 
"_score" : 1.0， 
"_source” :{ 
"username" : "gwenshap", 
"login time" : 1476423962000 
} 
}] 


} 
} 
如 果 在 MySQL 里 插入 新 的 数据 ， 它 们 会 自动 出 现在 Kafka 的 mysql.login 主题 以 及 
ElasticSearch 相应 的 索引 里 。 


现在 ， 我 们 已 经 知道 如 何 构建 与 安装 JDBC 连接 器 和 ElasticSearch 连接 器 了， 也 可 以 根据 
具体 需要 构建 和 安装 任意 的 连接 器 。Confluent 提供 了 一 个 可 用 的 连接 器 清单 (http://www. 
confluent.io/product/connectors/) ,一些 公司 和 社区 在 开发 和 维护 这 些 连接 器 。 你 可 以 从 中 
挑选 你 想 用 的 连接 器 ， 从 GitHub 上 获取 它们 的 代码 ， 自 行 构 建 ， 并 根据 文档 或 者 通过 
REST API 获取 配置 项 ， 配 置 好 以 后 在 自己 的 Connect 集群 上 运行 。 
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构建 自己 的 连接 器 


任何 人 都 可 以 基于 公开 的 Connector API 创建 自己 的 连接 器 。 事 实 上， 人们 
创建 了 各 种 连接 器 ， 然 后 把 它们 发 布 到 连接 器 中 心 (Connector Hub) ， 并 告 
诉 我 们 怎么 使 用 它们 。 如 果 你 在 连接 器 中 心 找 不 到 可 以 适 配 你 要 集成 的 数据 
存储 系统 的 连接 器 ， 可 以 开发 自己 的 连接 器 。 你 也 可 以 把 自己 的 连接 器 贡献 
给 社区 ， 让 更 多 的 人 知道 和 使 用 它们 。 关 于 构建 连接 器 的 更 多 细节 已 经 超 
出 了 本 章 的 讨论 范围 ， 不 过 可 以 参考 官方 文档 学 习 如 何 构 建 连接 器 (http:/ 
docs.confluent.io/3.0.1/connect/devguide.html)。 我 们 也 建议 将 已 有 的 连接 器 
作为 入 门 参考 ， 或 者 从 使 用 maven archtype (https://github.com/jcustenborder/ 
kafka-connect-archtype) 开始 。 另 外 ， 可 以 在 Kafka 的 社区 邮件 组 (users@ 
kafka.apache.org) 寻求 帮助 ， 或 者 在 邮件 组 里 展示 自己 的 连接 器 。 









































7.3.4 深入 理解 Connect 


要 理解 Connect 的 工作 原理 ， 需 要 先知 道 3 个 基本 概念 ， 以 及 它们 之 间 是 如 何 进行 交互 
的 。 我 们 已 经 在 之 前 的 示例 里 演示 了 如 何 运 行 worker 进程 集群 以 及 如 何 启动 和 关闭 连接 
器 。 不 过 我 们 并 没有 深入 解释 转化 器 是 如 何 处 理 数据 的 一 一 转换 器 把 MySQL 的 数据 行 转 
成 JSON 记录 ， 然 后 由 连接 器 将 它们 写 入 Kafka。 
现在 让 我 们 深入 理解 每 一 个 组 件 ， 以 及 它们 之 间 是 如 何 进行 交互 的 。 
1. 连接 器 和 任务 
连接 器 插件 实现 了 Connector API，API 包含 了 两 部 分 内 容 。 
连接 器 
连接 器 负责 以 下 3 件 事 情 。 
。 决定 需要 运行 多 少 个 任务 。 
。 按照 任务 来 拆 分 数据 复制 。 
。 从 worker 进程 获取 任务 配置 并 将 其 传递 下 去 。 例 如 , JDBC 连接 器 会 连接 到 数据 库 ， 
统计 需要 复制 的 数据 表 ， 并 确定 需要 执行 多 少 个 任务 ， 然 后 在 配置 参数 max.tasks 
和 实际 数据 量 之 间 选 择 数值 较 小 的 那个 作为 任务 数 。 在 确定 了 任务 数 之 后 ， 连 接 器 
会 为 每 个 任务 生成 一 个 配置 ， 配 置 里 包含 了 连接 器 的 配置 项 (比如 connection.ur1) 
和 该 任务 需要 复制 的 数据 表 。taskConfigs() 方法 返回 一 个 上 映射 列表 ， 这 些 映射 包含 
了 任务 的 相关 配置 。worker 进程 负责 启动 和 配置 任务 ， 每 个 任务 只 复制 配置 项 里 指 
定 的 数据 表 。 如 果 通 过 REST API 启动 连接 器 ， 有 可 能 会 启动 任意 节点 上 的 连接 器 ， 
那么 连接 器 的 任务 就 会 在 该 节点 上 执行 。 


























任务 
任务 负责 将 数据 移入 或 移出 Kafka。 任 务 在 初始 化 时 会 得 到 由 worker 进程 分 配 的 一 个 
上 下 文 : 源 系统 上 下 文 (Source Context) 包含 了 一 个 对 象 ， 可 以 将 源 系统 记录 的 偏 移 
量 保 存在 上 下 文 里 (例如 ， 文 件 连 接 器 的 偏 移 量 就 是 文件 里 的 字 节 位 置 ，JDBC 连接 器 
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的 偏 移 量 可 以 是 数据 表 的 主键 ID )。 目 标 系统 连接 器 的 上 下 文 提供 了 一 些 方法 ， 连 接 器 
可 以 用 它们 操作 从 Kafka 接收 到 的 数据 ， 比 如 进行 数据 清理 、 错 误 重 试 ， 或 者 将 偏 移 量 
保存 到 外 部 系统 以 便 实 现 仅 一 次 传递 。 任 务 在 完成 初始 化 之 后 ， 就 开始 按照 连接 器 指定 
的 配置 (包含 在 一 个 Properties 对 象 里 ) 启动 工作 。 源 系统 任务 对 外 部 系统 进行 轮 询 ， 
并 返回 一 些 记 录 ，worker 进程 将 这 些 记录 发 送 到 Kafka。 数 据 池 任务 通过 worker 进程 
接收 来 自 Kafka 的 记录 ， 并 将 它们 写 入 外 部 系统 。 


2. worker 进程 
worker 进程 是 连接 器 和 任务 的 “容器 ”。 它 们 负责 处 理 HTTP 请 求 ， 这 些 请 求 用 于 定义 连 
接 器 和 连接 器 的 配置 。 它 们 还 负责 保存 连接 器 的 配置 、 启 动 连接 器 和 连接 器 任务 ， 并 把 配 
置信 息 传递 给 任务 。 如 果 一 个 worker 进程 停止 工作 或 者 发 生 月 涡 ， 集 群 里 的 其 他 worker 
进程 会 感知 到 (Kafka 的 消费 者 协议 提供 了 心跳 检测 机 制 )， 并 将 崩溃 进程 的 连接 器 和 任务 
重新 分 配给 其 他 进程 。 如 果 有 新 的 进程 加 入 集群 ， 其 他 进程 也 会 感知 到 ， 并 将 自己 的 连接 
器 和 任务 分 配给 新 的 进程 ， 确 保 工作 负载 的 均衡 。 进 程 还 负责 提交 偏 移 量 ， 如 果 任 务 抛 出 
异常 ， 可 以 基于 这 些 偏 移 量 进行 重 试 。 
为 了 更 好 地 理解 worker 进程 ， 我 们 可 以 将 其 与 连接 器 和 任务 进行 简单 的 比较 。 连 接 器 和 任 
务 负责 “数据 的 移动 ">， 而 worker 进程 负责 REST API、 配 置 管理 、 可 靠 性 、 高 可 用 性 、1 
缩 性 和 负载 均衡 。 
这 种 关注 点 分 离 是 Connect API 给 我 们 带 来 的 最 大 好 处 ， 而 这 种 好 处 是 普通 客户 端 API 所 
不 具备 的 。 有 经 验 的 开发 人 员 都 知道 ， 编 写 代 码 从 Kafka 读 取 数据 并 将 其 插入 数据 库 只 需 
要 一 到 两 天 的 时 间 ， 但 是 如 果 要 处 理 好 配置 、 异 常 、REST API、 监 控 、 部 署 、 伸 缩 、 失 效 
等 问题 ， 可 能 需要 几 个 月 。 如 果 你 使 用 连接 器 来 实现 数据 复制 ， 连 接 器 插件 会 为 你 处 理 掉 
大 堆 复杂 的 问题 。 


3. 转化 器 和 Connect 的 数据 模型 


数据 模型 和 转化 器 是 Connect API 需要 讨论 的 最 后 一 部 分 内 容 。Connect 提供 了 一 组 数据 
API 一 一 它们 包含 了 数据 对 象 和 用 于 描述 数据 的 schema。 例 如 ，JDBC 连接 器 从 数据 库 读 
取 了 一 个 字段 ， 并 基于 这 个 字段 的 数据 类 型 创建 了 一 个 Connect Schema 对 象 。 然 后 使 用 这 
些 Schema 对 象 创建 一 个 包含 了 所 有 数据 库 字 段 的 Struct 我 们 保存 了 每 一 个 字段 的 名 
字 和 它们 的 值 。 源 连接 器 所 做 的 事情 都 很 相似 一 一 从 源 系 统 读 取 事件 ， 并 为 每 个 事件 生成 
schema 和 值 ( 值 就 是 数据 对 象 本 身 )。 目 标 连 接 器 正好 相反 ， 它 们 获取 schema 和 值 ， 并 使 
用 schema 来 解析 值 ， 然 后 写 入 到 目标 系统 。 


源 连 接 器 只 负责 基于 Data API 生成 数据 对 象 ， 那 么 worker 进程 是 如 何 将 这 些 数 据 对 象 保 
存 到 Kafka 的 ?这 个 时 候 ， 转 换 器 就 派 上 用 场 了 。 用 户 在 配置 worker 进程 (或 连接 器 ) 时 
可 以 选择 使 用 合适 的 转化 器 ， 用 于 将 数据 保存 到 Kafka。 目 前 可 用 的 转化 器 有 Avro、JSON 
和 String。JSON 转化 器 可 以 在 转换 结果 里 附带 上 schema， 当 然 也 可 以 不 使 用 schema， 这 
个 是 可 配 的 。Kafka 系统 因此 可 以 支持 结构 化 的 数据 和 半 结 构 化 的 数据 。 连 接 器 通过 Data 
API 将 数据 返回 给 worker 进程 ，worker 进程 使 用 指定 的 转化 器 将 数据 转换 成 Avro 对 象 、 
JSON 对 象 或 者 字符 串 ， 然 后 将 它们 写 入 Kafka。 


对 于 目标 连接 器 来 说 ， 过 程 刚好 相反 一 一 在 从 Kafka 读 取 数 据 时 ，worker 进程 使 用 指定 的 
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转换 器 将 各 种 格式 (Avro、JSON 或 String) 的 数据 转换 成 Data API 格式 的 对 象 ， 然 后 将 
它们 传 给 目标 连接 器 ， 目 标 连 接 器 再 将 它们 插入 到 目标 系统 。 


Connect API 因此 可 以 支持 多 种 类 型 的 数据 ， 数 据 类 型 与 连接 器 的 实现 是 相互 独立 的 一 一 
只 要 有 可 用 的 转换 器 ， 连 接 器 和 数据 类 型 可 以 自由 组 合 。 


4. 偏 移 量 管理 


worker 进程 的 REST API 提供 了 部 署 和 配置 管理 服务 ， 除 此 之 外 ，worker 进程 还 提供 了 
偏 移 量 管理 服务 。 连 接 器 只 要 知道 哪些 数据 是 已 经 被 处 理 过 的 ， 就 可 以 通过 Kafka 提供 的 
API 来 维护 偏 移 量 。 
源 连 接 器 返回 给 worker 进程 的 记录 里 包含 了 一 个 逻辑 分 区 和 一 个 逻辑 偏 移 量 。 它 们 并 非 
Kafka 的 分 区 和 偏 移 量 ， 而 是 源 系统 的 分 区 和 偏 移 量 。 例 如 ， 对 于 文件 源 来 说 ,分 区 可 以 
是 一 个 文件 ， 偏 移 量 可 以 是 文件 里 的 一 个 行 号 或 者 字符 号 ， 而 对 于 JDBC 源 来 说 ， 分 区 可 
以 是 一 个 数据 表 ， 偏 移 量 可 以 是 一 条 记录 的 主键 。 在 设计 一 个 源 连 接 嚣 时， 要 着 重 考虑 如 
何 对 源 系统 的 数据 进行 分 区 以 及 如 何 跟踪 偏 移 量 ， 这 将 影响 连接 器 的 并 行 能 力 ， 也 决定 了 
连接 器 是 否 能 够 实现 至 少 一 次 传递 或 者 仅 一 次 传递 。 


源 连接 器 返回 的 记录 里 包含 了 源 系 统 的 分 区 和 偏 移 量 ，worker 进程 将 这 些 记 录 发 送 给 
Kafka。 如 果 Kafka 确认 记录 保存 成 功 ，worker 进程 就 把 偏 移 量 保存 下 来 。 偏 移 量 的 存储 
机 制 是 可 播 拔 的 ， 一 般 会 使 用 Kafka 主题 来 保存 。 如 果 连 接 器 发 生 月 溃 并 重启 ， 它 可 以 从 
最 近 的 偏 移 量 继续 处 理 数据 。 

目标 连接 器 的 处 理 过 程 恰好 相反 ， 不 过 也 很 相似 。 它 们 从 Kafka 上 读 取 包含 了 主题 、 分 区 
和 偏 移 量 信息 的 记录 ， 然 后 调用 连接 器 的 put() 方法 ， 该 方法 会 将 记录 保存 到 目标 系统 里 。 
如 果 保 存 成 功 ， 连 接 器 会 通过 消费 者 客户 端 将 偏 移 量 提 交 到 Kafka 上 。 

框架 提供 的 偏 移 量 跟踪 机 制 简化 了 连接 器 的 开发 工作 ， 并 在 使 用 多 个 连接 器 时 保证 了 一 定 
程度 的 行为 一 致 性 。 


7.4 Connect 之 外 的 选择 


现在 ， 我 们 对 Connect API 有 了 更 加 深入 的 了 解 ， 不 仅 知道 如 何 使 用 它们 ， 还 知道 它们 的 
一 些 工作 原理 。 虽 然 Connect API 为 我 们 提供 了 便利 和 可 靠 性 ， 但 它 并 非 唯一 的 选择 。 下 
面 看 看 还 有 哪些 可 用 的 框架 ， 以 及 在 什么 时 候 可 以 使 用 它们 。 


7.4.1 用 于 其 他 数据 存储 的 摄 入 框架 

虽然 我 们 很 想 说 Kafka 是 至 高 无 上 的 明星 ， 但 肯定 会 有 人 不 同意 这 种 说 法 。 有 些 人 
将 Hadoop 或 ElasticSearch 作为 他 们 数据 架构 的 基础 ， 这 些 系 统 都 有 自己 的 数据 摄 入 工 
具 。Hadoop 使 用 了 Flume，ElasticSearch 使 用 了 Logstash 或 Fluentd。 如 果 架 构 里 包含 了 
Kafka， 并 且 需 要 连接 大 量 的 源 系统 和 目标 系统 ， 那 么 建议 使 用 Connect API 作为 摄 入 工 
县。 如 果 构 建 的 系统 是 以 Hadoop 或 ElasticSearch 为 中 心 的 ，Kafka 只 是 数据 的 来 源 之 一 ， 
那么 使 用 Flume 或 Logstash 会 更 合适 。 
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7.4.2 ”基于 图 形 界 面 的 ETL 工 具 


从 保守 的 Informatica 到 一 些 开 源 的 替代 方案 ， 比 如 Talend 和 Pentaho， 或 者 更 新 的 Apache 
NiFi 和 StreamSets 这 些 ETL 解决 方案 都 支持 将 Kafka 作为 数据 源 和 数据 了 地。 如 果 你 已 
经 使 用 了 这 些 系统 ， 比 如 Pentaho， 那 么 就 可 能 不 会 为 了 Kafka 而 在 系统 里 增加 另 一 种 集 
成 工具 。 如 果 你 已 经 习惯 了 基于 图 形 界面 的 ETL 数据 管道 解决 方案 ， 那 就 继续 使 用 它们 。 
不 过 ， 这 些 系统 有 一 些 不 足 的 地 方 ， 那 就 是 它们 的 工作 流 比较 复杂 ， 如 果 你 只 是 希望 从 
Kafka 里 获取 数据 或 者 将 数据 写 和 人 Kafka， 那 么 它们 就 显得 有 点 笨重 。 我 们 在 本 章 的 开头 部 
分 已 经 说 过 ， 在 进行 数据 集成 时 ， 应 该 将 注意 力 集中 在 消息 的 传输 上 。 因 此 ， 对 于 我 们 来 
说 ， 大 部 分 ETL 工具 都 太 过 复杂 了 。 


我 们 极力 建议 将 Kafka 当成 是 一 个 支持 数据 集成 (使 用 Connect)、 应 用 集成 (使 用 生产 者 
和 消费 者 ) 和 流 式 处 理 的 平台 。Kafka 完全 可 以 成 为 ETL 工具 的 末代 品 。 


7.4.3 流 式 处 理 框 架 


几乎 所 有 的 流 式 处 理 框 架 都 具备 从 Kafka 读 取 数据 并 将 数据 写 人 外 部 系统 的 能 力 。 如 果 你 
的 目标 系统 支持 流 式 处 理 ， 并 且 你 已 经 打算 使 用 流 式 框架 处 理 来 自 Kafka 的 数据 ， 那 么 使 
用 相同 的 框架 进行 数据 集成 看 起 来 是 很 合理 的 。 这 样 可 以 省 掉 一 个 处 理 步骤 (不 需要 保存 
来 自 Kafka 的 数据 ， 而 是 直接 从 Kafka 读 取 数据 然后 写 到 其 他 系统 )， 不 过 在 发 生 数据 丢失 
或 者 出 现 脏 数据 时 ， 诊 断 问题 会 变 得 很 困难 ， 因 为 这 些 框架 并 不 知道 数据 是 什么 时 候 丢失 
的 ， 或 者 什么 时 候 出 现 了 及 数据。 


7.5 总结 


本 章 讨 论 了 如 何 使 用 Kafka 进行 数据 集成 ， 从 解释 为 什么 要 使 用 Kafka 进行 数据 集成 开始 ， 
到 说 明 数 据 集成 方案 的 一 般 性 考虑 点 。 我 们 先 解 释 了 为 什么 Kafka 和 Connect API 是 一 种 
更 好 的 选择 ， 然 后 给 出 了 一 些 例 子 ， 演 示 如 何在 不 同 的 场景 下 使 用 Connect， 并 深入 了 解 
了 Connect 的 工作 原理 ， 最 后 介绍 了 一 些 Connect 之 外 的 数据 集成 方案 。 


不 管 最 终 你 选择 了 哪 一 种 数据 集成 方案 ， 都 需要 保证 所 有 消息 能 够 在 各 种 恶劣 条 件 下 完成 
传递 。 我 们 相信 ， 在 与 Kafka 的 可 靠 性 特性 结合 起 来 之 后 ，Connect 具有 了 极 高 的 可 靠 性 。 
不 过 ， 我 们 仍然 需要 对 它们 进行 严格 的 测试 ， 以 确保 你 选择 的 数据 集成 系统 能 够 在 发 生 进 
程 停止 、 机 器 骨 社 、 网 络 延 迟 和 高 负载 的 情况 下 不 丢失 消息 。 毕 竟 ， 数 据 集成 系统 应 该 只 
做 一 件 事 情 ， 那 就 是 传递 数据 。 

可 靠 性 是 数据 集成 系统 唯一 一 个 重要 的 需求 。 在 选择 数据 系统 时 ， 首 先 要 明确 需求 (可 以 
参考 7.1 节 ) ， 并 确保 所 选择 的 系统 能 够 满足 这 些 需求 。 除 此 之 外 ， 还 要 很 好 地 了 解数 据 集 
成 方案 ， 确 保 知 道 怎么 使 用 它们 来 满足 需求 。 虽 然 Kafka 支持 至 少 一 次 传递 的 原 语 ， 但 你 
也 要 小 心 谨慎 ， 避 免 在 配置 上 出 现 偏差 ， 破 坏 了 可 靠 性 。 




































































































































































构建 数据 管道 | 117 





第 8 和 章 


跨 集群 数据 镜像 





本 书 的 大 部 分 内 容 都 是 在 讨论 单个 Kafka 集群 的 配置 、 维 护 和 使 用 。 不 过 ， 在 某 些 场景 的 
架构 里 ， 可 能 需要 用 到 多 个 集群 。 


有 了 时候 ， 这 些 集群 相互 独立 ， 属 于 不 同 的 部 门 ， 或 者 有 不 同 的 用 途 ， 那 么 就 没有 必要 在 集 
群 间 复 制 数据 。 有 时 候 ， 因 为 对 SLA 有 不 同 的 要 求 ， 或 者 因为 工作 负载 的 不 同 ， 很 难 通过 
调整 单个 集群 来 满足 所 有 的 需求 。 还 有 一 些 时 候 ， 对 安全 有 各 种 不 同 的 要 求 。 这 些 问 题 其 
实 很 容易 解决 ， 就 是 分 别 为 它们 创建 不 同 的 集群 管理 多 个 集群 本 质 上 就 是 重复 多 次 运 
行 单独 的 集群 。 

在 某 些 情况 下 ， 不 同 的 集群 之 间 相 互 依赖 ， 管 理 员 需 要 不 停 地 在 集群 间 复 制 数 据 。 大 部 分 
数据 库 都 支持 复制 (replication) ， 也 就 是 持续 地 在 数据 库 服 务 器 之 间 复 制 数据 。 不 过 ， 医 
为 前 面 已 经 使 用 过 “复制 ”这 个 词 来 描述 在 同一 个 集群 的 节点 间 移 动 数据 ， 所 以 我 们 把 集 
群 间 的 数据 复制 叫 作 镜 像 (mirroring)。Kafka 内 置 的 跨 集群 复制 工具 叫 作 MirrorMaker。 
在 这 一 章 ， 我 们 将 讨论 跨 集 群 的 数据 镜像 ， 它 们 既 可 以 镜像 所 有 数据 ， 也 可 以 镜像 部 分 数 
据 。 我 们 先 从 一 些 和 常见 的 跨 集群 镜像 场景 开始 ， 然 后 介绍 这 些 场景 所 使 用 的 架构 模式 ， 以 
及 这 些 架 构 模 式 各 自 的 优 缺 点 。 接 下 来 我 们 会 介绍 MirrorMaker 以 及 如 何 使 用 它 ， 然 后 说 
明 在 进行 部 署 和 性 能 调 优 时 需要 注意 的 一 些 事项 。 最 后 我 们 会 对 MirrorMaker 的 一 些 替 代 
方案 进行 比较 。 


8.1 器 集 群 镜像 的 使 用 场景 


下 面 列 出 了 几 个 使 用 跨 集群 镜像 的 场景 。 
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区 域 集群 和 中 心 集群 
有 了 时候， 一 个 公司 会 有 多 个 数据 中 心 ， 它 们 分 布 在 不 同 的 地 理 区 域 、 不 同 的 城市 或 不 同 
的 大 洲 。 这 些 数据 中 心 都 有 自己 的 Kafka 集群 。 有 些 应 用 程序 只 需要 与 本 地 的 Kafka 集 
群 通信 ， 而 有 些 则 需要 访问 多 个 数据 中 心 的 数据 (否则 就 没 必要 考虑 跨 数据 中 心 的 复制 
方案 了 )。 有 很 多 情况 需要 跨 数据 中 心 ， 比 如 一 个 公司 根据 供需 情况 修改 商品 价格 就 是 
一 个 典型 的 场景 。 该 公司 在 每 个 城市 都 有 一 个 数据 中 心 ， 它 们 收集 所 在 城市 的 供需 信 
息 ， 并 调整 商品 价格 。 这 些 信 息 将 会 被 镜像 到 一 个 中 心 集群 上， 业务 分 析 员 就 可 以 在 上 
面 生成 整个 公司 的 收益 报告 。 

宛 余 (DR) 
一 个 Kafka 集群 足以 支撑 所 有 的 应 用 程序 ， 不 过 你 可 能 会 担心 集群 因 某 些 原因 变 得 不 可 
用 ， 所 以 你 希望 有 第 二 个 Kafka 集群 ， 它 与 第 一 个 集群 有 相同 的 数据 ， 如 果 发 生 了 紧急 
情况 ， 可 以 将 应 用 程序 重 定向 到 第 二 个 集群 上 。 

云 迁 移 
现今 有 很 多 公司 将 它们 的 业务 同时 部 署 在 本 地 数据 中 心 和 云端 。 为 了 实现 元 余 ， 应 用 
程序 通常 会 运行 在 云 供应 商 的 多 个 服务 区 域 里 ， 或 者 使 用 多 个 云 服 务 。 本 地 和 每 个 去 
服务 区 域 都 会 有 一 个 Kafka 集群 。 本 地 数据 中 心 和 云 服 务 区 域 里 的 应 用 程序 使 用 自己 的 
Kafka 集群 ， 当 然 也 会 在 数据 中 心 之 间 传 输 数据 。 例 如 ， 如 果 云 端 部 署 了 一 个 新 的 应 用 
程序 ， 它 需要 访问 本 地 的 数据 。 本 地 的 应 用 程序 负责 更 新 数据 ， 并 把 它们 保存 在 本 地 的 
数据 库 里 。 我 们 可 以 使 用 Connect 捕获 这 些 数据 库 变 更 ， 并 把 它们 保存 到 本 地 的 Kafka 
集群 里 ， 然 后 再 镜像 到 云端 的 Kafka 集群 上 。 这 样 有 助 于 控制 跨 数据 中 心 的 流量 成 本 ， 
同时 也 有 助 于 改进 流量 的 监管 和 安全 性 。 


8.2 多 集群 架构 


现在 ， 我 们 已 经 知道 有 哪些 场景 需要 用 到 多 个 Kafka 集群 ， 接 下 来 将 介绍 几 种 常见 的 架构 
模式 。 我 们 之 前 已 经 成 功 地 基于 这 些 模式 实现 了 上 述 的 几 种 场景 。 在 讲解 这 些 架构 模式 之 
前 ， 先 简单 地 介绍 一 下 有 关 跨 数据 中 心 通信 的 现实 情况 。 我 们 即将 讨论 的 方案 都 是 以 特定 
的 网 络 条 件 为 前 提 的 。 


8.2.1 ” 跨 数 据 中 心 通信 的 一 些 现实 情况 

以 下 是 在 进行 跨 数据 中 心 通信 时 需要 考虑 的 一 些 问 题 。 

高 廷 迟 
Kafka 集群 之 间 的 通信 延迟 随 着 集群 间距 离 的 增长 而 增加 。 虽 然 光缆 的 速度 是 恒定 的 ， 
但 集群 间 的 网 络 跳 转 所 带 来 的 缓冲 和 堵塞 会 增加 通信 延迟 。 

有 限 的 带宽 
单个 数据 中 心 的 广域网 带宽 远 比 我 们 想象 的 要 低 得 多 ， 而 且 可 用 的 带宽 时 刻 在 发 生变 
化 。 另 外 ， 高 延迟 让 如 何 利 用 这 些 带 宽 变 得 更 加 困难 。 
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高 成 本 
不 管 你 是 在 本 地 还 是 在 云端 运行 Kafka， 集 群 之 间 的 通信 都 需要 更 高 的 成 本 。 部 分 原 
是 因为 带宽 有 限 ， 而 增加 带宽 是 很 昂贵 的 ， 当 然 ， 这 个 与 供应 商 制定 的 在 数据 中 心 、 
域 和 云端 之 间 传 输 数 据 的 收费 策略 也 有 关系 。 
Kafka 服务 器 和 客户 端 是 按照 单个 数据 中 心 进行 设计 、 开 发 、 测 试 和 调 优 的 。 我 们 假设 服 
务 器 和 客户 端 之 间 具 有 很 低 的 延迟 和 很 高 的 带宽 ， 在 使 用 默认 的 超时 时 间 和 缓冲 区 大 小 时 
也 是 基于 这 个 前 提 。 因 此 ， 我 们 不 建议 跨 多 个 数据 中 心安 装 Kafka 服务 器 (不 过 稍 后 会 介 
绍 一 些 例外 情况 )。 
大 多 数 情况 下 ， 我 们 要 避免 向 远程 的 数据 中 心 生 成 数据 ， 但 如 果 这 么 做 了 ， 那 么 就 要 忍受 
高 延迟 ， 并 且 需 要 通过 增加 重 试 次 数 (LinkedIn 曾经 为 跨 集群 镜像 设置 了 32 000 多 次 重 试 
次 数 ) 和 增 大 缓冲 区 来 解决 潜在 的 网 络 分 区 问题 (生产 者 和 服务 器 之 间 临 时 断 开 连接 ) 。 


如 果 有 了 跨 集群 复制 的 需求 ， 同 时 又 禁用 了 从 broker 到 broker 之 间 的 通信 以 及 从 生产 者 到 
broker 之 间 的 通信 ， 那 么 我 们 必须 允许 从 broker 到 消费 者 之 间 的 通信 。 事 实 上 ， 这 是 最 安 
全 的 跨 集群 通信 方式 。 在 发 生 网 络 分 区 时 ， 消 费 者 无 法 从 Kafka 读 取 数 据 ， 数 据 会 驻 留 在 
Kafka 里 ， 直 到 通信 恢复 正常 。 因 此 ， 网 络 分 区 不 会 造成 任何 数据 丢失 。 不 过 ， 因 为 带宽 
有 限 ， 如 果 一 个 数据 中 心 的 多 个 应 用 程序 需要 从 男 一 个 数据 中 心 的 Kafka 服务 器 上 读 取 数 
据 ， 我 们 倾向 于 为 每 一 个 数据 中 心安 装 一 个 Kafka 集群 ， 并 在 这 些 集 群 间 复制 数据 ， 而 不 
是 让 不 同 的 应 用 程序 通过 广域网 访问 数据 。 


在 讨论 更 多 有 关 跨 数据 中 心 通信 的 调 优 策略 之 前 ， 我 们 需要 先知 道 以 下 一 些 架构 原则 。 


。 每 个 数据 中 心 至 少 需要 一 个 集群 。 
。 每 两 个 数据 中 心 之 间 的 数据 复制 要 做 到 每 个 事件 仅 复制 一 次 (除非 出 现 错误 需要 重 试 )。 
。 如 果 有 可 能 ， 尽 量 从 远程 数据 中 心 读 取 数据 ， 而 不 是 向 远程 数据 中 心 写 入 数据 。 
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8.2.2 Hub 和 Spoke 架 构 
这 种 架构 适用 于 一 个 中 心 Kafka 集群 对 应 多 个 本 地 Kafka 集群 的 情况 ， 如 图 8-1 所 示 。 








中 央 度 量 伦敦 
虽 标 Kafka 集 群 Kafka 集 和 群 














图 8-1: 一 个 中 心 Kafka 集群 对 应 多 个 本 地 Kafka 集群 
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这 种 架构 有 一 个 简单 的 变种 ， 如 果 只 有 一 个 本 地 集群 ， 那 么 整个 架构 里 就 只 剩 下 两 个 集 
群 : 一 个 首领 和 一 个 跟随 者 ， 如 图 8-2 所 示 。 
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8-2: 一 个 首领 对 应 一 个 跟随 者 


当 消 费 者 需要 访问 的 数据 集 分 散在 多 个 数据 中 心 时 ， 可 以 使 用 这 种 架构 。 如 果 每 个 数据 中 
心 的 应 用 程序 只 处 理 自己 所 在 数据 中 心 的 数据 ， 那 么 也 可 以 使 用 这 种 架构 ， 只 不 过 它们 无 
法 访问 到 全 局 的 数据 集 。 


这 种 架构 的 好 处 在 于 ， 数 据 只 会 在 本 地 的 数据 中 心 生成 ， 而 且 每 个 数据 中 心 的 数据 只 会 被 
镜像 到 中 央 数 据 中 心 一 次 。 只 处 理 单个 数据 中 心 数据 的 应 用 程序 可 以 被 部 署 在 本 地 数据 中 
心里 ,而 需要 处 理 多 个 数据 中 心 数据 的 应 用 程序 则 需要 被 部 署 在 中 央 数 据 中 心里 。 因 为 数 
据 复 制 是 单 向 的 ， 而 且 消 费 者 总 是 从 同一 个 集群 读 取 数 据 ， 所 以 这 种 架构 易于 部 署 、 配 置 
和 监控 。 

不 过 这 种 架构 的 简单 性 也 导致 了 一 些 不 足 。 一 个 数据 中 心 的 应 用 程序 无 法 访问 另 一 个 数据 
中 心 的 数据 。 为 了 更 好 地 理解 这 种 局 限 性 ， 我 们 举 一 个 例子 来 说 明 。 

假设 有 一 家 银行 ， 它 在 不 同 的 城市 有 多 家 分 行 。 每 个 城市 的 Kafka 集群 上 保存 了 用 户 的 信 
息 和 账号 历史 数据 。 我 们 把 各 个 城市 的 数据 复制 到 一 个 中 心 集群 上 ， 这 样 银行 就 可 以 利用 
这 些 数据 进行 业务 分 析 。 在 用 户 访问 银行 网 站 或 去 他 们 所 属 的 分 行 办 理 业 务 时 ， 他 们 的 请 
求 被 路 由 到 本 地 集群 上 ， 同 时 从 本 地 集群 读 取 数 据 。 假 设 一 个 用 户 去 另 一 个 城市 的 分 行 办 
理 业务 ， 因 为 他 的 信息 不 在 这 个 城市 ， 所 以 这 个 分 行 需要 与 远程 的 集群 发 生 交 互 (不 建议 
这 么 做 ) ， 否 则 根本 没有 办 法 访问 到 这 个 用 户 的 信息 (很 尴 傣 ) 。 因 此 ， 这 种 架构 模式 在 数 
据 访 问 方面 有 所 局 限 ， 因 为 区 域 数据 中 心 之 间 的 数据 是 完全 独立 的 。 

在 采用 这 种 架构 时 ， 每 个 区 域 数据 中 心 的 数据 都 需要 被 镜像 到 中 央 数 据 中 心 上 。 镜 像 进 程 
会 读 取 每 一 个 区 域 数 据 中 心 的 数据 ， 并 将 它们 重新 生成 到 中 心 集群 上 。 如 果 多 个 数据 中 心 
出 现 了 重 名 的 主题 ， 那 么 这 些 主 题 的 数据 可 以 被 写 到 中 心 集群 的 单个 主题 上 ， 也 可 以 被 写 
到 多 个 主题 上 。 


8.2.3 双 活 架构 
当 有 两 个 或 多 个 数据 中 心 需 要 共享 数据 并 且 每 个 数据 中 心 都 可 以 生产 和 读 取 数据 时 ， 可 以 
使 用 双 活 (Active-Active) 架构 ， 如 图 8-3 所 示 。 
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图 8-3: 两 个 数据 中 心 需要 共享 数据 


这 种 架构 的 主要 好 处 在 于 ， 它 可 以 为 就 近 的 用 户 提供 服务 ， 具 有 性 能 上 的 优势 ， 而 且 不 会 
因为 数据 的 可 用 性 问题 (在 Hub 和 Spoke 架构 中 就 有 这 种 问题 ) 在 功能 方面 作出 牺牲 。 第 
二 个 好 处 是 见 余 和 弹性 。 因 为 每 个 数据 中 心 具 备 完整 的 功能 ， 一 旦 一 个 数据 中 心 发 生 失 
效 ， 就 可 以 把 用 户 重 定向 到 另 一 个 数据 中 心 。 这 种 重 定向 完全 是 网 络 的 重 定向 ， 因 此 是 一 
种 最 简单 、 最 透明 的 失效 备 援 方案 。 


这 种 架构 的 主要 问题 在 于 ， 如 何在 进行 多 个 位 置 的 数据 异步 读 取 和 异步 更 新 时 避免 冲突 。 
比如 镜像 技术 方面 的 问题 一 一 如 何 确 保 同一 个 数据 不 会 被 无 止境 地 来 回 镜像 而 数据 一 致 
性 方面 的 问题 则 更 为 关键 。 下 面 是 可 能 遇 到 的 问题 。 

。 如 果 用 户 向 一 个 数据 中 心 发 送 数据 ， 同 时 从 第 二 个 数据 中 心 读 取 数 据 ， 那 么 在 用 户 读 取 
数据 之 前 ， 他 发 送 的 数据 有 可 能 还 没有 被 镜像 到 第 二 个 数据 中 心 。 对 于 用 户 来 说 ， 这 就 
好 比 把 一 本 书 加 入 到 购物 车 ， 但 是 在 他 点 开 购 物 车 时 ， 书 却 不 在 里 面 。 因 此 ， 在 使 用 这 
种 架构 时 ， 开 发 人 员 经 常会 将 用 户 “ 粘 ”在 同一 个 数据 中 心 上 ， 以 确保 用 户 在 大 多 数 情 
况 下 使 用 的 是 同一 个 数据 中 心 的 数据 (除非 他 们 从 远程 进行 连接 或 者 数据 中 心 不 可 用 )。 

。 一 个 用 户 在 一 个 数据 中 心 订 购 了 书 A， 而 第 二 个 数据 中 心 儿 乎 在 同一 时 间 收 到 了 该 用 
户 订 购书 B 的 订单 ， 在 经 过 数据 镜像 之 后 ， 每 个 数据 中 心 都 包含 了 这 两 个 事件 。 两 个 
数据 中 心 的 应 用 程序 需要 知道 如 何 处 理 这 种 情况 。 我 们 是 否 应 该 从 中 挑选 一 个 作为 “ 正 
确 ” 的 事件 ”如果 是 这 样 ， 我 们 需要 在 两 个 数据 中 心 之 间 定 义 一 致 的 规则 ， 用 于 确定 
哪个 事件 才 是 正确 的 。 又 或 者 把 两 个 都 看 成 是 正确 的 事件 ， 将 两 本 书 都 发 给 用 户 ， 然 
后 设立 一 个 部 门 专门 来 处 理 退 货 问 题 ? Amazon 就 是 使 用 这 种 方式 来 处 理 冲 突 的 ， 但 
对 于 股票 交易 部 门 来 说 ， 这 种 方案 是 行 不 通 的 。 如 何 最 小 化 冲突 以 及 如 何 处 理 冲 突 要 
视 具体 情况 而 定 。 总 之 要 记 住 ， 如 果 使 用 了 这 种 架构 ， 必 然 会 遇 到 冲突 问题 ， 还 要 想 
办 法 解决 它们 。 

如 有 果 能 够 很 好 地 处 理 在 从 多 个 位 置 异步 读 取 数据 和 异步 更 新 数据 时 发 生 的 冲突 问题 ， 那 么 

我 们 强烈 建议 使 用 这 种 架构 。 这 种 架构 是 我 们 所 知道 的 最 具 伸 缩 性 、 弹 性 、 灵 活性 和 成 本 

优势 的 解决 方案 。 所 以 ， 它 值得 我 们 投入 精力 去 寻找 一 些 办 法 ， 用 于 避免 循环 复制 、 把 相 

同 用 户 的 请 求 粘 在 同一 个 数据 中 心 ， 以 及 在 发 生 冲 突 时 解决 冲突 。 

双 活 镜像 〈 特 别 是 当 数 据 中 心 的 数量 超过 两 个 ) 的 挑 成 之 处 在 于 ， 每 两 个 数据 中 心 之 间 都 

需要 进行 镜像 ， 而 且 是 双向 的 。 如 果 有 5 个 数据 中 心 ， 那 么 就 需要 维护 至 少 20 个 镜像 进 

程 ， 还 有 可 能 达到 40 个 ， 因 为 为 了 高 可 用 ， 每 个 进程 都 需要 元 余 。 



















































































































































































另外 ， 我 们 还 要 避免 循环 镜像 ， 相 同 的 事件 不 能 无 止境 地 来 回 镜像 。 对 于 每 一 个 “逻辑 
主题 "， 我 们 可 以 在 每 个 数据 中 心里 为 它 创 建 一 个 单独 的 主题 ， 并 确保 不 要 从 远程 数据 中 
心 复制 同名 的 主题 。 例 如 ， 对 于 逻辑 主题 “users”， 我 们 在 一 个 数据 中 心 为 其 创建 “SF. 
users” 主 题 ， 在 另 一 个 数据 中 心 为 其 创建 “NYC.users” 主 题 。 镜 像 进程 将 SF 的 “SFE. 
users” 镜 像 到 NYC， 同 时 将 NYC 的 “NYC.users” 镜 像 到 SF。 这 样 一 来 ， 每 一 个 事件 只 
会 被 镜像 一 次 ， 不 过 在 经 过 镜像 之 后 ， 每 个 数据 中 心 同时 拥有 了 SF.users 和 NYC.users 这 
两 个 主题 ， 也 就 是 说 ， 每 个 数据 中 心 都 拥有 相同 的 用 户 数 据 。 消 费 者 如 果 要 读 取 所 有 的 用 
户 数据 ， 就 需要 以 “*.users” 的 方式 订阅 主题 。 我 们 也 可 以 把 这 种 方式 理解 为 数据 中 心 的 
命名 空间 ， 比 如 在 这 个 例子 里 ，NYC 和 SF 就 是 命名 空间 。 


在 不 久 的 将 来 ，Kafka 将 会 增加 记录 头 部 信息 。 头 部 信息 里 可 以 包含 源 数据 中 心 的 信息 ， 
我 们 可 以 使 用 这 些 信 息 来 避免 循环 镜像 ， 也 可 以 用 它们 来 单独 处 理 来 自 不 同 数据 中 心 的 数 
据 。 当 然 ， 你 也 可 以 通过 使 用 结构 化 的 数据 格式 〈 比 如 Avro) 来 实现 这 一 特性 ， 并 用 它 在 
数据 里 添加 标签 和 头 部 信息 。 不 过 在 进行 镜像 时 ， 需 要 做 一 些 额外 的 工作 ， 因 为 现成 的 镜 
像 工具 并 不 支持 自 定 义 的 头 部 信息 格式 。 


8.2.4 主 备 架 构 


有 了 时候， 使 用 多 个 集群 只 是 为 了 达到 灾 备 的 目的 。 你 可 能 在 同一 个 数据 中 心安 装 了 两 个 
集群 ， 它 们 包含 相同 的 数据 ， 平 第 只 使 用 其 中 的 一 个 。 当 提供 服务 的 集群 完全 不 可 用 时 ， 
就 可 以 使 用 第 二 个 集群 。 又 或 者 你 可 能 希望 它们 具备 地 理 位 置 弹性 ， 比 如 整体 业务 运行 
在 加 利 福 尼 亚 州 的 数据 中 心 上 ， 但 需要 在 德 克 陕 斯 州 有 第 二 个 数据 中 心 ， 第 二 个 数据 中 
心平 常 不 怎么 用 ,但 是 一 旦 第 一 个 数据 中 心 发 生地 震 ， 第 二 个 数据 中 心 就 能 派 上 用 场 。 
德 克 萨 斯 州 的 数据 中 心 可 能 拥有 所 有 应 用 程序 和 数据 的 非 活 跃 (“ 冷 ”) 复制 ， 在 紧急 情 
况 下 ， 管 理 员 可 以 启动 它们 ， 让 第 二 个 集群 发 挥 作用 。 这 种 需求 一 般 是 合 规 性 的 ， 业 务 
不 一 定 会 将 其 纳入 规划 范畴 ， 但 还 是 要 做 好 充分 的 准备 。 主 备 (Active-Standby) 架构 示 
意图 如 图 8-4 所 示 。 
























































































































































图 8-4: 主 备 架构 示意 图 


这 种 架构 的 好 处 是 易于 实现 ， 而 且 可 以 被 用 于 任何 一 种 场景 。 你 可 以 安装 第 二 个 集群 ， 然 
后 使 用 镜像 进程 将 第 一 个 集群 的 数据 完整 镜像 到 第 二 个 集群 上 ， 不 需要 担心 数据 的 访问 和 
冲突 问题 ， 也 不 需要 担心 它 会 带 来 像 其 他 架构 那样 的 复杂 性 。 


这 种 架构 的 不 足 在 于 ， 它 浪费 了 一 个 集群 。Kafka 集群 间 的 失效 备 援 比 我 们 想象 的 要 难得 
多 。 从 目前 的 情况 来 看 ， 要 实现 不 丢失 数据 或 无 重复 数据 的 Kafka 集群 失效 备 援 是 不 可 能 
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的 。 我 们 只 能 尽量 减少 这 些 问题 的 发 生 ， 但 无 法 完全 避免 。 


让 一 个 集群 什么 事 也 不 做 ， 只 是 等 待 灾难 的 发 生 ， 这 明显 就 是 对 资源 的 浪费 。 因 为 灾难 是 
(或 者 说 应 该 是 ) 很 少见 的 ， 所 以 在 大 部 分 时 间 里 ， 灾 备 集 群 什么 事 也 不 做 。 有 些 组 织 党 
试 减 小 灾 备 集群 的 规模 ， 让 它 远 小 于 生产 环境 的 集群 规模 。 这 种 做 法 具有 一 定 的 风险 ， 因 
为 你 无 法 保证 这 种 小 规模 的 集群 能 够 在 紧急 情况 下 发 挥 应 有 的 作用 。 有 些 组 织 则 倾向 于 让 
灾 备 集群 在 平常 也 能 发 挥 作用 ， 他 们 把 一 些 只 读 的 工作 负载 定向 到 灾 备 集群 上 ， 也 就 古 
说 ， 实 际 上 运行 的 是 Hub 和 Spoke 架构 的 一 个 简化 版 本 ， 因 为 架构 里 只 有 一 个 Spoke。 


那么 问题 来 了 : 如 何 实现 Kafka 集群 的 失效 备 援 ? 

首先 ， 不 管 选 择 哪 一 种 失效 备 援 方案 ，SRE (网 站 可 靠 性 工程 ) 团队 都 必须 随时 待命 

天 能 够 正常 运行 的 计划 ， 在 系统 升级 之 后 可 能 就 无 法 正常 工作 ， 
足 新 场景 的 需求 。 每 季度 进行 一 次 失效 备 援 是 最 低 限 度 的 要 求 ， 一 个 高 效 的 SRE 团队 会 更 
频繁 地 进行 失效 备 援 。Chaos Monkey 是 Netflix 提供 的 一 个 著名 的 服务 ， 它 随机 地 制造 灾 
难 ， 有 可 能 让 任何 一 天 都 成 为 失效 备 援 日 。 

现在 ， 让 我 们 来 看 看 失效 备 援 都 包括 哪些 内 容 。 

1. 数据 丢失 和 不 一 致 性 


因为 Kafka 的 各 种 镜像 解决 方案 都 是 异步 的 (8.2.5 节 将 介绍 一 种 同步 的 方案 )， 所 以 灾 
备 集 群 总 是 无 法 及 时 地 获取 主 集群 的 最 新 数据 。 我 们 要 时 刻 注意 灾 备 集群 与 主 集群 之 间 
拉 开 了 多 少 距离 ， 并 保证 不 要 出 现 太 大 的 差距 。 不 过 ， 一 个 繁忙 的 系统 可 以 允许 灾 备 集 
群 与 主 集群 之 间 有 几 百 个 甚至 几 千 个 消息 的 延迟 。 如 果 你 的 Kafka 集群 每 秒 钟 可 以 处 理 
100 万 个 消息 ， 而 在 主 集群 和 灾 备 集群 之 间 有 5ms 的 延迟 ， 那 么 在 最 好 的 情况 下 ， 灾 备 
集群 每 秒 钟 会 有 5000 个 消息 的 延迟 。 所 以 ， 不 在 计划 内 的 失效 备 援 会 造成 数据 的 丢失 。 
在 进行 计划 内 的 失效 备 援 时 ， 可 以 先 停止 主 集群 ， 等 待 镜像 进程 将 剩余 的 数据 镜像 完毕 ， 
然后 切换 到 灾 备 集群 ， 这 样 可 以 避免 数据 丢失 。 在 发 生 非 计划 内 的 失效 备 援 时 ， 可 能 会 
丢失 数 千 个 消息 。 目 前 Kafka 还 不 支持 事务 ， 也 就 是 说 ， 如 果 多 个 主题 的 数据 (比如 销 
售 数据 和 产品 数据 ) 之 间 有 相关 性 ， 那 么 在 失效 备 援 过 程 中 ， 一 些 数据 可 以 及 时 到 达 灾 
备 集群 ， 而 有 些 则 不 能 。 那 么 在 切换 到 灾 备 集群 之 后 ， 应 用 程序 需要 知道 该 如 何 处 理 没有 
相关 销售 信息 的 产品 数据 。 

2. 失效 备 援 之 后 的 起 始 偏 移 量 


在 切换 到 灾 备 集群 的 过 程 中 ， 最 有 具 挑战 性 的 事情 莫 过 于 如 何 让 应 用 程序 知道 该 从 什么 地 
方 开 始 继续 处 理 数 据 。 下 面 将 介绍 一 些 常用 的 方法 ， 其 中 有 些 很 简单 ， 但 有 可 能 会 造成 
有 些 则 比较 复杂 ， 但 可 以 最 小 化 丢失 数据 和 出 现 重复 数据 的 
能 性 。 
偏 移 量 自 动 重 置 
Kafka 消费 者 有 一 个 配置 选项 ， 用 于 指定 在 没有 上 一 个 提交 偏 移 量 的 情况 下 该 作 何 处 
理 。 消 费 者 要 么 从 分 区 的 起 始 位 置 开 始 读 取 数 据 ， 要 么 从 分 区 的 末尾 开始 读 取 数 据 。 如 
果 使 用 的 是 旧版 本 的 消费 者 〈 偏 移 量 保存 在 Zookeeper 上 ) ， 而 且 因 为 某 些 原因 ， 这 些 
偏 移 量 没有 被 纳入 灾 备 计划 ， 那 么 就 需要 从 上 述 两 个 选项 中 选择 一 个 。 要 么 从 头 开 始 读 






















































































































































































取 数 据 ， 并 处 理 大 量 的 重复 数据 ， 要 么 直接 跳 到 末尾 ， 放 弃 一 些 数据 (和 希 
数据 )。 如 果 重 复 处 理 数据 或 者 丢失 一 些 数据 不 会 造成 太 大 问题 ， 那 么 重 
为 简单 的 方案 。 不 过 直接 从 主题 的 末尾 开始 读 取 数 据 这 种 方式 或 许 更 为 常见 。 
复制 偏 移 量 主题 

如 果 使 用 新 的 Kafka 消费 者 (0.9 或 以 上 版 本 )， 消 费 者 会 把 偏 移 量 提交 到 一 个 叫 作 
__consumer_offsets 的 主题 上 。 如 果 对 这 个 主题 进行 了 镜像 ， 那 么 当 消 费 者 开始 读 
取 灾 备 集群 的 数据 时 ， 它 们 就 可 以 从 原先 的 偏 移 量 位 置 开始 处 理 数 据 。 这 个 看 起 来 
很 简单 ， 不 过 仍然 有 很 多 需要 注意 的 事项 。 


首先 ， 我们 并 不 能 保证 主 集群 里 的 偏 移 量 与 灾 备 集群 里 的 偏 移 量 是 完全 匹配 的 。 假 设 主 集 
群 里 的 数据 只 保留 3 天 ， 而 你 在 一 个 星期 之 后 才 开 始 镜像 ， 那 么 在 这 种 情况 下 ， 主 集群 里 
第 一 个 可 用 的 偏 移 量 可 能 是 57 000 000 (前 4 天 的 旧 数 据 已 经 被 删除 了 )， 而 灾 备 集群 里 的 
第 一 个 偏 移 量 是 0， 那 么 当 消 费 者 尝试 从 57 000 003 处 (因为 这 是 它 要 读 取 的 下 一 个 数据 ) 
开始 读 取 数据 时 ， 就 会 失败 。 


其 次 ， 就 算 在 主题 创建 之 后 立即 开始 镜像 ， 让 主 集 群 和 灾 备 集群 的 主题 偏 移 量 都 从 0 开 
台 ， 生 产 者 在 后 续 进 行 重 试 时 仍然 会 造成 偏 移 量 的 偏离 。 简 而 言 之， 目前 的 Kafka 镜像 解 
决 方案 无 法 为 主 集群 和 灾 备 集群 保留 偏 移 量 。 
最 后 ， 就 算 偏 移 量 被 完美 地 保留 下 来 ， 因 为 主 集群 和 灾 备 集群 之 间 的 延迟 以 及 Kafka 缺乏 
对 事务 的 支持 ， 消 费 者 提交 的 偏 移 量 有 可 能 会 在 记录 之 前 或 者 记录 之 后 到 达 。 在 发 生 失效 
援 之 后 ， 消 费 者 可 能 会 发 现 偏 移 量 与 记录 不 匹配 ， 或 者 灾 备 集群 里 最 新 的 偏 移 量 比 主 集 
群 里 的 最 新 偏 移 量 小 。 如 图 8-5 所 示 。 







































































































































































生产 环境 的 Kafka 集 群 生产 环境 的 Kafka 集 群 
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图 8-5: 灾 备 集群 偏 移 量 与 主 集群 的 最 新 偏 移 量 不 匹配 的 示例 




















在 这 些 情况 下 ， 我 们 需要 接受 一 定 程度 的 重复 数据 。 如 末 灾 备 集 群 最 新 的 偏 移 量 比 主 集群 
的 最 新 偏 移 量 小 ， 或 者 因为 生产 者 进行 重 试 导致 灾 备 集群 的 记录 偏 移 量 比 主 集群 的 记录 偏 
移 量 大 ， 都 会 造成 数据 重复 。 你 还 需要 知道 该 怎么 处 理 最 新 偏 移 量 与 记录 不 匹配 的 问题 ， 


























跨 集群 数据 镜像 | 125 


此 时 要 从 主题 的 起 始 位 置 开始 读 取 还 是 从 末尾 开始 读 取 ? 


复制 偏 移 量 主题 的 方式 可 以 用 于 减少 数据 重复 或 数据 丢失 ， 而 且 实现 起 来 很 简单 ， 只 要 
及 时 地 从 0 开始 镜像 数据 ， 并 持续 地 镜像 偏 移 量 主题 就 可 以 了 。 不 过 一 定 要 注意 上 述 的 
几 个 问题 。 


基于 时 间 的 失效 备 援 

如 果 使 用 的 是 新 版 本 〈0.10.0 及 以 上 版 本 ) 的 Kafka 消费 者 ， 每 个 消息 里 都 包含 了 一 个 
时 间 惟 ， 这 个 时 间 惟 指明 了 消息 发 送 给 Kafka 的 时 间 。 在 更 新 版 本 的 Kafka (0.10.1.0 
及 以 上 版 本 ) 里 ，broker 提供 了 一 个 索引 和 一 个 API， 用 于 根据 时 间 惟 查找 偏 移 量 。 于 
是 ， 假 设 你 正在 进行 失效 备 援 ， 并 且 知 道 失效 事件 发 生 在 凑 晨 4:05， 那 么 就 可 以 让 消费 
者 从 4:03 的 位 置 开 始 处 理 数据 。 在 两 分 钟 的 时 间 差 里 会 存在 一 些 重复 数据 ， 不 过 这 种 
方式 仍然 比 其 他 方案 要 好 得 多 ， 而 且 也 很 容易 向 其 他 人 解释 “我 们 将 从 凌晨 4:03 
的 位 置 开始 处 理 数据 ”这 样 的 解释 要 比 “ 我 们 从 一 个 不 知道 是 不 是 最 新 的 位 置 开始 处 理 
数据 ”要 好 得 多 。 所 以 ， 这 是 一 种 更 好 的 折 中 。 问 题 是 ， 如 何 让 消费 者 从 凌晨 4:03 的 
位 置 开 始 处 理 数据 呢 ? 


可 以 让 应 用 程序 来 完成 这 件 事情 。 我 们 为 用 户 提供 一 个 配置 参数 ， 用 于 指定 从 什么 时 间 
点 开始 处 理 数 据 。 如 果 用 户 指定 了 时 间 ， 应 用 程序 可 以 通过 新 的 API 获取 指定 时 间 的 
偏 移 量 ， 然 后 从 这 个 位 置 开始 处 理 数据 。 


如 果 应 用 程序 在 一 开始 就 是 这 么 设计 的 ， 那 么 使 用 这 种 方案 就 再 好 不 过 了 。 但 如 果 应 用 
程序 在 一 开始 不 是 这 么 设计 的 呢 ? 开发 一 个 这 样 的 小 工具 也 并 不 难 一 一 接收 一 个 时 间 
戳 ， 使 用 新 的 API 获取 相应 的 偏 移 量 ， 然 后 提交 偏 移 量 。 我 们 希望 在 未 来 的 Kafka 版 本 
里 添加 这 样 的 工具 ， 不 过 你 也 可 以 自己 写 一 个 。 在 运行 这 个 工具 时 ， 应 该 先 关 闭 消费 者 
群 组 ， 在 工具 完成 任务 之 后 再 启动 它们 。 


该 方案 适用 于 那些 使 用 了 新 版 Kafka、 对 失效 备 援 有 明确 要 求 并 且 喜 欢 自己 开发 工具 
的 人 。 


偏 移 量 外 部 映射 

我 们 知道 ， 镜 像 偏 移 量 主题 的 一 个 最 大 问题 在 于 主 集群 和 灾 备 集群 的 偏 移 量 会 发 生 偏 
差 。 因 此 ， 一些 组 织 选择 使 用 外 部 数据 存储 (比如 Apache Cassandra) 来 保存 集群 之 间 
的 偏 移 量 映射 。 他 们 自己 开发 镜像 工具 ， 在 一 个 数据 被 镜像 到 灾 备 集群 之 后 ， 主 集群 
和 灾 备 集群 的 偏 移 量 被 保存 到 外 部 数据 存储 上 。 或 者 只 有 当 两 边 的 偏 移 量 差 值 发 生变 
化 时 ， 才 保存 这 两 个 偏 移 量 。 比 如 ， 主 集群 的 偏 移 量 495 被 映射 到 灾 备 集群 的 偏 移 量 
500， 在 外 部 存储 上 记录 为 《495,500)。 如 果 之 后 因为 消息 重复 导致 差 值 发 生变 化 ， 偏 
移 量 596 被 映射 为 600， 那 么 就 保留 新 的 映射 (569,600)。 他 们 没有 必要 保留 495 和 
596 之 间 的 所 有 偏 移 量 映射 ， 他 们 假设 差 值 都 是 一 样 的 ， 所 以 主 集 群 的 偏 移 量 550 会 映 
射 到 灾 备 集群 的 偏 移 量 555。 那 么 在 发 生 失 效 备 援 时 ， 他 们 将 主 集 群 的 偏 移 量 与 灾 备 集 
群 的 偏 移 量 映射 起 来 ， 而 不 是 在 时 间 戳 (通常 会 有 点 不 准确 ) 和 偏 移 量 之 间 做 映射 。 他 
们 通过 上 述 技术 手段 之 一 来 强制 消费 者 使 用 映射 当中 的 偏 移 量 。 对 于 那些 在 数据 记录 之 
前 达到 的 偏 移 量 或 者 没有 及 时 被 镜像 到 灾 备 集群 的 偏 移 量 来 说 ， 仍 然 会 有 问题 一 一 不 过 
这 至 少 已 经 满足 了 部 分 场景 的 需求 。 
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这 种 方案 非常 复杂 ， 我 认为 并 不 值得 投入 额外 的 时 间 。 在 索引 还 没有 出 现 之 前 ， 或 许可 
以 考虑 使 用 这 种 方案 。 但 在 今天 ， 我 倾向 于 将 集群 升级 到 新 版 本 ， 并 使 用 基于 时 间 惟 的 
解决 方案 ， 而 不 是 进行 偏 移 量 映射 ， 更 何况 偏 移 量 映射 并 不 能 覆盖 所 有 的 失效 备 援 场景 。 
3. 在 失效 备 援 之 后 
假设 失效 备 援 进行 得 很 顺利 ， 灾 备 集群 也 运行 得 很 正常 ， 现 在 需要 对 主 集群 做 一 些 改动 ， 
比如 把 它 变 成 灾 备 集群 。 
如 果 能 够 通过 简单 地 改变 镜像 进程 的 方向 ， 让 它 将 数据 从 新 的 主 集群 镜像 到 旧 的 主 集群 上 
面 ， 事 情 就 完美 了 ! 不过， 这 里 还 存在 两 个 问题 。 


。 怎么 知道 该 从 哪里 开始 镜像 7 我 们 同样 需要 解决 与 镜像 程序 里 的 消费 者 相关 的 问题 。 而 
且 不 要 忘 了 ， 所 有 的 解决 方案 都 有 可 能 出 现 重复 数据 或 者 丢失 数据 ， 或 者 两 者 兼 有 。 

。 之 前 讨论 过 ， 旧 的 主 集群 可 能 会 有 一 些 数据 没有 被 镜像 到 灾 备 集群 上 ， 如 果 在 这 个 时 
候 把 新 的 数据 镜像 回来 ， 那 么 历史 遗留 数据 还 会 继续 存在 ， 两 个 集群 的 数据 就 会 出 现 
不 一 致 。 

基于 上 述 的 考虑 ， 最 简单 的 解决 方案 是 清理 旧 的 主 集群 ， 删 掉 所 有 的 数据 和 偏 移 量 ， 然 后 

从 新 的 主 集群 上 把 数据 镜像 回来 ， 这 样 可 以 保证 两 个 集群 的 数据 是 一 致 的 。 


4. 关于 集群 发 现 


在 设计 灾 备 集群 时 ， 需 要 考虑 一 个 很 重要 的 问题 ， 就 是 在 发 生 失 效 备 援 之 后 ， 应 用 程序 
需要 知道 如 何 与 灾 备 集群 发 起 通信 。 不 建议 把 主 集 群 的 主机 地 址 硬 编码 在 生产 者 和 消费 
者 的 配置 属性 文件 里 。 大 多 数组 织 为 此 创建 了 DNS 别名， 将 其 指向 主 集群 ,一旦 发 生 紧 
急 情 况 ， 可 以 将 其 指向 灾 备 集群 。 有 些 组 织 则 使 用 服务 发 现 工 具 ， 比 如 Zookeeper、Etcd 
或 Consul。 这 些 服 务 发 现 工 具 (DNS 或 其 他 ) 没有 必要 将 所 有 broker 的 信息 都 包含 在 内 ， 
Kafka 客户 端 只 需要 连接 到 其 中 的 一 个 broker， 就 可 以 获取 到 整个 集群 的 元 数据 ， 并 发 现 
集群 里 的 其 他 broker。 一 般 提 供 3 个 broker 的 信息 就 可 以 了 。 除 了 服务 发 现 之 外 ， 在 大 多 
数 情况 下 ， 需 要 重启 消费 者 应 用 程序 ， 这 样 它们 才能 找到 新 的 可 用 偏 移 量 ， 然 后 继续 读 取 
数据 。 


8.2.5 延展 集群 


在 主 备 架构 里 ， 当 Kafka 集群 发 生 失 效 时 ， 可 以 将 应 用 程序 重 定向 到 另 一 个 集群 上 ， 以 保 
证 业务 的 正常 运行 。 而 在 整个 数据 中 心 发 生 故 障 时 ， 可 以 使 用 延展 集群 (stretch cluster) 
来 避免 Kafka 集群 失效 。 延 展 集群 就 是 跨 多 个 数据 中 心安 装 的 单个 Kafka 集群 。 


延展 集群 与 其 他 类 型 的 集群 有 本 质 上 的 区 别 。 首 先 ， 延 展 集群 并 非 多 个 集群 ， 而 是 单个 
集群 ， 因 此 不 需要 对 延展 集群 进行 镜像 。 延 展 集群 使 用 Kafka 内 置 的 复制 机 制 在 集群 的 
broker 之 间 同 步 数 据 。 我 们 可 以 通过 配置 打开 延展 集群 的 同步 复制 功能 ， 生 产 者 会 在 消息 
成 功 写 入 到 其 他 数据 中 心 之 后 收 到 确认 。 同 步 复制 功能 要 求 使 用 机 架 信息 ， 确 保 每 个 分 
在 其 他 数据 中 心 都 存在 副本 ， 还 需要 配置 min.isr 和 acks=aLL， 确 保 每 次 写 人 消息 时 都 可 
以 收 到 至 少 两 个 数据 中 心 的 确认 。 


同步 复制 是 这 种 架构 的 最 大 优势 。 有 些 类 型 的 业务 要 求 灾 备 站 点 与 主 站 点 保持 100% 的 同 
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步 ， 这 是 一 种 合 规 性 需求 ， 可 以 应 用 在 公司 的 任何 一 个 数据 存储 上 ， 包 括 Kafka 本 身 。 这 
种 架构 的 另 一 个 好 处 是 ， 数 据 中 心 及 所 有 broker 都 发 挥 了 作用 ， 不 存在 像 主 备 架构 那样 的 
资源 浪费 。 

这 种 架构 的 不 足 之 处 在 于 ， 它 所 能 应 对 的 灾难 类 型 很 有 限 ， 只 能 应 对 数据 中 心 的 故障 ， 无 
法 应 对 应 用 程序 或 者 Kafka 故障 。 运 维 的 复杂 性 是 它 的 另 一 个 不 足 之 处 ， 它 所 需要 的 物理 
基础 设施 并 不 是 所 有 公司 都 能 够 承担 得 起 的 。 


如 果 能 够 在 至 少 3 个 具有 高 带宽 和 低 延 迟 的 数据 中 心 上 安装 Kafka (包括 Zookeeper)， 那 
么 就 可 以 使 用 这 种 架构 。 如 有 果 你 的 公司 有 3 栋 大 楼 处 于 同一 个 街区 ， 或 者 你 的 云 供应 商 在 
同一 个 地 区 有 3 个 可 用 的 区 域 ， 那 么 就 可 以 考虑 使 用 这 种 方案 。 


为 什么 是 3 个 数据 中 心 ? 主要 是 因为 Zookeeper。Zookeeper 要 求 集群 里 的 节点 个 数 是 奇 
数 ， 而 且 只 有 当 大 多 数 节 点 可 用 时 ， 整 个 集群 才 可 用 。 如 果 只 有 两 个 数据 中 心 和 奇数 个 节 
点 ， 那 么 其 中 的 一 个 数据 中 心 将 包含 大 多 数 节 点 ， 也 就 是 说 ， 如 果 这 个 数据 中 心 不 可 用 ， 
那么 Zookeeper 和 Kafka 也 不 可 用 。 如 果 有 3 个 数据 中 心 ， 那 么 在 分 配 节 点 时 ， 可 以 做 到 
每 个 数据 中 心 都 不 会 包含 大 多 数 节点 。 如 果 其 中 的 一 个 数据 中 心 不 可 用 ， 其 他 两 个 数据 中 
心包 含 了 大 多 数 节 点 ， 此 时 Zookeeper 和 Kafka 仍然 可 用 。 


从 理论 上 说 ， 在 两 个 数据 中 心 运行 Zookeeper 和 Kafka 是 可 能 的 ， 只 要 将 Zookeeper 的 群 
组 配置 成 允许 手动 进行 失效 备 援 。 不 过 在 实际 应 用 当中 ， 这 种 做 法 并 不 常见 。 


8.3 Kafka 的 MirrorMaker 


Kafka 提供 了 一 个 简单 的 工具 ， 用 于 在 两 个 数据 中 心 之 间 镜 像 数据 。 这 个 工具 叫 
MirrorMaker， 它 包含 了 一 组 消费 者 〈 因 为 历史 原因 ， 它 们 在 MirrorMaker 文档 里 被 称 为 
流 )， 这 些 消 费 者 属于 同一 个 群 组 ， 并 从 主题 上 读 取 数据 。 每 个 MirrorMaker 进程 都 有 一 个 
单独 的 生产 者 。 镜 像 过 程 很 简单 : MirrorMaker 为 每 个 消费 者 分 配 一 个 线程 ， 消 费 者 从 源 
集群 的 主题 和 分 区 上 读 取 数 据 ， 然 后 通过 公共 生产 者 将 数据 发 送 到 目标 集群 上 。 上 默认 情况 
下 ， 消 费 者 每 60 秒 通 知 生产 者 发 送 所 有 的 数据 到 Kafka， 并 等 待 Kafka 的 确认 。 然 后 消费 
者 再 通知 源 集群 提交 这 些 事 件 相 应 的 偏 移 量 。 这 样 可 以 保证 不 丢失 数据 (在 源 集群 提交 偏 
移 量 之 前 ，Kafka 对 消息 进行 了 确认 )， 而 且 如 果 MirrorMaker 进程 发 生 月 涡 ， 最 多 只 会 出 
现 60 秒 的 重复 数据 。 见 图 8-6。 











































































































源 Kafka 和 集群 














图 8-6，MirrorMaker 的 镜像 过 程 
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MirrorMaker 相关 信息 


MirrorMaker 看 起 来 很 简单 ， 不 过 出 于 对 效率 的 考虑 ， 以 及 尽 可 能 地 做 到 仅 一 
次 传递 ， 它 的 实现 并 不 容易 。 和 截止 到 Kafka 0.10.0.0 版 本 ，MirrorMaker 已 经 被 
重 写 了 4 次， 而 且 在 未 来 有 可 能 会 进行 更 多 的 重 写 。 这 里 所 描述 的 以 及 后 续 章 
节 将 提 及 的 MirrorMaker 相关 细节 都 基于 0.9.0.0 到 0.10.2.0 之 间 的 版 本 。 





























8.3.1 如 何 配置 


MirrorMaker 是 高 度 可 配置 的 。 首 先 ， 它 使 用 了 一 个 生产 者 和 多 个 消费 者 ， 所 以 生产 者 和 
消费 者 的 相关 配置 参数 都 可 以 用 于 配置 MirrorMaker。 另 外 ，MirrorMaker 本 身 也 有 一 些 配 
置 参数 ， 这 些 配 置 参数 之 间 有 时候 会 有 比较 复杂 的 依赖 关系 。 下 面 将 举 一 些 例子 ， 并 着 重 
说 明 一 些 重要 的 配置 参数 。 不 过 ，MirrorMaker 的 详细 文档 不 在 本 书 的 讨论 范围 之 内 。 


先 来 看 一 个 MirrorMaker 的 例子 : 


bin/kafka-mirror-maker --consumer.config etc/kafka/consumer .properties -- 
producer .config etc/kafka/producer.properties --new.consumer --num.streams=2 -- 
whitelist ".*" 


接 下 来 分 别 说 明 MirrorMaker 的 基本 命令 行 参数 。 

consumer .Config 
该 参数 用 于 指定 消费 者 的 配置 文件 。 所 有 的 消费 者 将 共用 这 个 配置 ， 也 就 是 说 ， 只 能 配 
置 一 个 源 集群 和 一 个 group.id。 所 有 的 消费 者 属于 同一 个 消费 者 群 组 ， 这 正好 与 我 们 
的 要 求 不 谋 而 合 。 配 置 文件 里 有 两 个 必 选 的 参数 : bootstrap.servers ( 源 集群 的 服务 
器 地 址 ) 和 group.id。 除 了 这 两 个 参数 外 ， 还 可 以 为 消费 者 指定 其 他 任意 的 配置 参数 。 
auto.commit.enable 参数 一 般 不 需要 修改 ， 用 默认 值 false 就 行 。MirrorMaker 会 在 消 
息 安 全 到 达 目 标 集 群 之 后 提交 偏 移 量 ， 所 以 不 能 使 用 自动 提交 。 如 果 修 改 了 这 个 参数 ， 
可 能 会 导致 数据 丢失 。auto.offset.reset 参数 一 般 需 要 进行 修改 ， 默 认 值 是 Latest， 
也 就 是 说 ，MirrorMaker 只 对 那些 在 MirrorMaker 启动 之 后 到 达 源 集群 的 数据 进行 镜像 。 
如 果 想 要 镜像 之 前 的 数据 ， 需 要 把 该 参数 设 为 earliest。 我 们 将 在 8.3.3 节 介 绍 更 多 的 
配置 属性 。 

producer .config 
该 参数 用 于 指定 生产 者 的 配置 文件 。 配 置 文件 里 唯一 必 选 的 参数 是 bootstrap.servers 
(目标 集群 的 服务 器 地 址 )。 我 们 将 在 8.3.3 节 介 绍 更 多 的 配置 属性 。 

new.consumer 
MirrorMaker 只 能 使 用 0.8 版 本 或 者 0.9 版 本 的 消费 者 。 建 议 使 用 0.9 版 本 的 消费 者 ， 
为 它 更 加 稳定 。 

num.streams 
之 前 已 经 解释 过 ， 一 个 流 就 是 一 个 消费 者 。 所 有 的 消费 者 共用 一 个 生产 者 ，MirrorMaker 
将 会 使 用 这 些 流 来 填充 同一 个 生产 者 。 如 果 需 要 额外 的 否 吐 量 ， 就 需要 创建 男 一 个 
MirrorMaker 进程 。 
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whitelist 
这 是 一 个 正则 表达 式 ， 代 表 了 需要 进行 镜像 的 主题 名 字 。 所 有 与 表达 式 匹 配 的 主题 都 
将 被 镜像 。 在 这 个 例子 里 ， 我 们 希望 镜像 所 有 的 主题 ， 不 过 在 实际 当中 最 好 使 用 类 似 
“prod.*” 这 样 的 表达 式 ， 避 免 镜像 测试 用 的 主题 。 在 双 活 架构 中 ，MirrorMaker 将 NYC 
数据 中 心 的 数据 镜像 到 SF， 为 其 配置 了 whilelist="NYC.\*"， 这 样 就 不 会 将 SF 的 主题 
重新 镜像 回来 。 


8.3.2 ”在 生产 环境 部 署 MirrorMaker 


在 上 面 的 例子 里 ， 我 们 是 从 命令 行 启动 MirrorMaker 的 。 在 生产 环境 ，MirrorMaker 一 般 是 
作为 后 台 服 务 运 行 的 ， 而 且 是 以 nohup 的 方式 运行 ， 并 将 控制 台 的 输出 重 定向 到 一 个 日 志 
文件 里 。 这 个 工具 有 一 个 -deamon 命令 行 参数 。 理 论 上 ， 只 要 使 用 这 个 参数 就 能 实现 后 台 
运行 ， 不 需要 再 做 其 他 任何 事情 ， 但 在 实际 当中 ， 最 近 发 布 的 一 些 版 本 并 不 能 如 我 们 所 期 
望 的 那样 。 


大 部 分 使 用 MirrorMaker 的 公司 都 有 自己 的 启动 脚本 ， 他 们 一 般 会 使 用 部 署 系统 (比如 
Ansible、Puppet、Chef 和 Salt) 实现 自动 化 的 部 署 和 配置 管理 。 


在 Docker 容器 里 运行 MirrorMaker 变 得 越 来 越 流 行 。MirrorMaker 是 完全 无 状态 
的 ， 也 不 需要 磁盘 存储 (所 有 的 数据 和 状态 都 保存 在 Kafka 上 )。 将 MirrorMaker 安 
装 在 Docker 里 ， 就 可 以 实现 在 单 台 主机 上 运行 多 个 MirrorMaker 实例 。 因 为 单个 
MirrorMaker 实例 的 吞吐 量 受 限 于 单个 生产 者 ， 所 以 为 了 提升 吞吐 量 ， 需 要 运行 多 个 
MirrorMaker 实例 ， 而 Docker 简化 了 这 一 过 程 。Docker 也 让 MirrorMaker 的 伸缩 变 
得 更 加 容易 ， 在 流量 高 峰 时 ， 可 以 通过 增加 更 多 的 容器 来 提升 吞吐 量 ， 在 流量 低谷 时 ， 
则 减少 容器 。 如 果 在 云端 运行 MirrorMaker， 根 据 吞 吐 量 实际 情况 ， 可 以 通过 增加 额外 
的 服务 器 来 运行 Docker 容器 。 

如 果 有 可 能 ， 尽 量 让 MirrorMaker 运行 在 目标 数据 中 心里 。 也 就 是 说 ， 如 果 要 将 NYC 的 
数据 发 送 到 SF，MirrorMaker 应 该 运行 在 SF 的 数据 中 心里 。 因 为 长 距离 的 外 部 网 络 比 数 
据 中 心 的 内 部 网 络 更 加 不 可 靠 ， 如 果 发 生 了 网 络 分 区 ， 数 据 中 心 之 间断 开 了 连接 ， 那 么 
一 个 无 法 连接 到 集群 的 消费 者 要 比 一 个 无 法 连接 到 集群 的 生产 者 要 安全 得 多 。 如 果 消 费 
者 无 法 连接 到 集群 ， 最 多 也 就 是 无 法 读 取 数据 ， 数 据 仍然 会 在 Kafka 集群 里 保留 很 长 的 
一 段 时间 ， 不 会 有 丢失 的 风险 。 相 反 ， 在 发 生 网 络 分 区 时 ， 如 果 MirrorMaker 已 经 读 取 
了 数据 ,但 无 法 将 数据 生成 到 目标 集群 上 ， 就 会 造成 数据 丢失 。 所 以 说 ， 远 程 读 取 比 远 
程 生成 更 加 安全 。 

那么 ,什么 情况 下 需要 在 本 地 读 取 消息 并 将 其 生成 到 远程 数据 中 心 昵 ?如 果 需 要 加 密 传 
输 数 据 ， 但 又 不 想 在 数据 中 心 进行 加 密 ， 就 可 以 使 用 这 种 方式 。 消 费 者 通过 SSL 连接 
到 Kafka 对 性 能 有 一 定 的 影响 ， 这 个 比 生产 者 要 严重 得 多 ， 而 且 这 种 性 能 问题 也 会 影响 
broker。 如 果 跨 数据 中 心 流 量 需 要 加 密 ， 那 么 最 好 把 MirrorMaker 放 在 源 数据 中 心 ， 让 它 
读 取 本 地 的 非 加 密 数据 ， 然 后 通过 SSL 连接 将 数据 生成 到 远程 的 数据 中 心 。 这 个 时 候 ， 使 
用 SSL 连接 的 是 生产 者 ， 所 以 性 能 问题 就 不 那么 明显 了 。 在 使 用 这 种 方式 时 ， 需 要 确保 
MirrorMaker 在 收 到 目标 broker 副本 的 有 效 确 认 之 前 不 要 提交 偏 移 量 ， 并 在 重 试 次 数 超出 
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限制 或 者 生产 者 缓冲 区 溢出 的 情况 下 立即 停止 镜像 。 

如 果 和 希望 减 小 源 集群 和 目标 集群 之 间 的 延迟 ， 可 以 在 不 同 的 机 器 上 运行 至 少 两 个 
MirrorMaker 实例 ， 而 且 它 们 要 使 用 相同 的 消费 者 群 组 。 也 就 是 说 ,如 果 关 掉 其 中 一 台 服 务 
器 ， 另 一 个 MirrorMaker 实例 能 够 继续 镜像 数据 。 











迟 监 控 














在 将 MirrorMaker 部 署 到 生产 环境 时 ， 最 好 要 对 以 下 几 项 内 容 进 行 监 控 。 











人 目标 集群 是 否 落 后 于 源 集 群 。 延 迟 体现 在 源 集群 最 新 偏 移 量 和 目标 


集群 最 新 偏 移 量 的 差异 上 。 见 图 8-7。 











生产 环境 的 Kafka 集 群 





主题 _ 消 费 者 _ 偏 移 量 


群 组 MirrorMaker, 
主题 A, 分 区 0， 
偏 移 量 3 








生产 环境 的 Kafka 集 群 











8-7: 监控 不 同 偏 移 量 之 间 的 延迟 


如 图 8-7 所 示 ， 源 集群 的 最 后 一 个 偏 移 量 是 7， 
们 之 间 有 两 个 消息 的 延迟 。 


有 两 种 方式 可 用 于 跟踪 延迟 ， 不 过 它们 都 不 是 





而 目标 集群 的 最 后 一 个 偏 移 量 是 5， 所 以 它 


完美 的 解决 方案 。 


。 检查 MirrorMaker 提交 到 源 集群 的 最 新 偏 移 量 。 可 以 使 用 kafka-consumer-groups 工具 检 
查 MirrorMaker 读 取 的 每 一 个 分 区 ， 查 看 分 区 的 最 新 偏 移 量 ， 也 就 是 MirrorMaker 提交 
的 最 新 偏 移 量 ， 趟 过 这 个 俐 做 量 并 不全 100% 的 准确 ， 因 为 MirrorMaker 并 不 会 每 时 每 
刻 都 提 3 交 偏 移 量 ， 默认 情况 下 ， 它 会 每 分 钟 提 交 一 次 。 所 以 ， 我 们 最 多 会 看 到 一 分 钟 的 
延迟 ， 然 后 延迟 突然 下 降 。 图 8-7 中 的 延迟 是 2， 但 kafka-consumer-groups 会 认为 是 4， 
































因为 MirrorMaker 还 没有 提交 最 近 的 偏 移 量 。LinkedIn 的 burrow 也 会 监控 这 些 信息 ， 不 


过 它 使 用 了 更 为 复杂 的 方法 来 识别 延迟 的 真实 性 ， 所 以 不 会 导致 误 报 。 

。 检查 MirrorMaker 读 取 的 最 新 偏 移 量 (即使 还 未 提交 )。 消 费 者 通过 JMX 发 布 关 键 性 度 
量 指 标 ,其 中 有 一 个 指标 是 指 消费 者 的 最 大 延迟 (基于 它 所 读 取 的 所 有 分 区 计算 得 出 的 )。 
这 个 延迟 也 不 是 100% 的 准确 ， 因 为 它 只 反映 了 消费 者 读 取 的 数据 ， 并 没有 考虑 生产 者 























是 否 成 功 地 将 数据 发 送 到 目标 集群 上 。 在 














图 8-7 的 示例 里 ，MirrorMaker 消费 者 会 认为 


延迟 是 1, 而 不 是 2, 因 为 它 已 经 读 取 了 消息 6, 尽管 这 个 消息 还 没有 被 生成 到 目标 集群 上 。 


要 注意 ， 如 果 MirrorMaker 跳 过 或 丢弃 部 分 消息 ， 上 述 的 两 种 方法 是 无 法 检测 到 的 ， 因 为 
它们 只 跟踪 最 新 的 偏 移 量 。Confluent 的 Control Center 通过 监控 消息 的 数量 和 校 验 和 来 提 





























升 监控 的 准确 性 。 
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度量 指标 监控 


MirrorMaker 内 从 了 生产 者 和 消费 者 ， 它 们 都 有 很 多 可 用 的 度量 指标 ， 所 以 建议 对 它们 
进行 监控 。Kafka 文档 列 出 了 所 有 可 用 的 度量 指标 。 下 面 列 出 了 几 个 已 经 被 证 明 能 够 提 





升 MirrorMaker 性 能 的 度量 

消费 者 
fetch-size-avg、fetch- 
fetch-throttle-time-max, 


生产 者 




















虽 标 。 


size-max、fetch-rate、fetch-throttLe-time-avg 以 及 


batch-size-avg、batch-size-max、requests-in-flight 以 及 record-retry-rate。 


同时 适用 于 两 者 


io-ratio 和 io-wait-ratio。 


canary 


如 果 对 所 有 东西 都 进行 了 监控 ， 那 么 canary 就 不 是 必需 的 ， 不 过 对 于 多 层 监控 来 说 ， 
可 能 还 是 有 必要 的 。 我 们 可 以 每 分 钟 往 源 集群 的 某 个 特定 主题 上 发 送 一 个 事件 ， 





个 事件 。 如 果 这 个 事件 在 给 定 的 时 间 之 后 才 到 达 ， 那 么 就 发 





1 告警 ， 说 明 MirrorMaker 出 现 了 延迟 或 者 已 经 不 正常 了 。 


8.3.3 MirrorMaker 调 优 


MirrorMaker 集群 的 大 小 取决 于 对 吞吐 量 的 需求 和 对 延迟 的 接受 程度 。 如 果 不 允 许 有 任何 
i i 如 果 可 以 容忍 一 些 延迟 ， 
那么 可 以 在 95%~99% 的 时 间 里 只 使 用 75%~80% 的 容量 。 在 吞吐 量 高 峰 时 可 以 允许 一 些 
延迟 ， 高 峰 期 结束 时 ， 因 为 MirrorMaker 有 一 上 些 鹿 余 容 量 ， 可 以 很 容易 地 消除 延迟 。 











你 可 能 想 通 过 消费 者 的 线程 数 


















































(通过 num.streams 参数 配置 ) 来 衡量 MirrorMaker 的 吞吐 


量 。 我 们 可 以 提供 一 些 参考 数据 (LinkedIn 使 用 8 个 消费 者 可 以 达到 6MB/s 的 吞吐 量 ， 使 





用 16 个 则 可 以 达到 12MB/s)， 





不 过 实际 的 否 吐 量 取决 于 具体 的 硬件 、 数 据 中 心 或 云 服务 














提供 商 ， 所 以 需要 自己 进行 测试 。Kafka 提供 了 kafka-performance-producer 工具 ， 用 于 在 





源 集 群 上 制造 负载 ， 然 后 启动 





MirrorMaker 对 这 个 负载 进行 镜像 。 分 别 为 MirrorMaker 配 


置 1、2、4、8、16、24 和 32 个 消费 者 线程 ， 并 观察 性 能 在 哪个 点 开始 下 降 ， 然 后 将 num. 
streams 的 值 设置 为 一 个 小 于 当前 点 的 整数 。 如 果 数 据 经 过 压缩 (因为 网 络 带 宽 是 跨 集群 
镜像 的 瓶 开 ， 所 以 建议 将 数据 压缩 后 再 传输 )， 那 么 MirrorMaker 还 要 负责 解压 并 重新 压缩 
这 些 数据 。 这 样 会 消耗 很 多 的 CPU 资源 ， 所 以 在 增加 线程 数量 时 ， 要 注意 观察 CPU 的 使 


用 情况 。 通 过 这 种 方式 ， 可 以 条 
吞吐 量 还 达 不 到 要 求 ， 可 以 增 力 














得 到 单个 MirrorMaker 实例 的 最 大 吞吐 量 。 如 果 单 个 实例 的 
[更 多 的 MirrorMaker 实例 和 服务 器 。 











另外 ， 你 可 能 想 要 分 离 比较 敏感 的 主题 ， 它 们 要 求 很 低 的 延迟 ， 所 以 其 镜像 必须 尽 可 能 地 





接近 源 集群 和 MirrorMaker 集群 。 





者 拖 慢 数据 管道 。 


这 样 可 以 避免 主题 过 于 及 肿 ， 或 者 避免 出 现 失控 的 生产 











我 们 能 够 对 MirrorMaker 进行 的 调 优 也 就 是 这 些 了 。 不 过 ， 我 们 仍然 有 其 他 办 法 可 以 增加 


每 个 消费 者 和 每 个 MirrorMaker 





的 吞吐 量 。 





| 全 A 


132 第 8 章 


如 果 MirrorMaker 是 跨 数据 中 心 运行 的 ， 可 以 在 Linux 上 对 网 络 进行 优化 。 


要 注意 ， 在 Linux 上 进行 网 络 调 优 包 含 了 太 多 复杂 的 内 容 。 为 了 了 解 更 多 参数 和 细节 ， 奸 





增加 TCP 的 缓冲 区 大 小 (net.core.rmem default、net.core.rmem max、net.core.wmem_ 
default、 net.core.wmem max、net.core.optmem max), 

启用 时 间 窗 口 自动 伸缩 (sysctL -w net.ipv4.tcp_window_scaling=1 或 者 把 net.ipv4. 
tcp_window_scaling=1 添加 到 /etc/sysctl.conf)。 

减少 TCP 慢 启 动 时 间 (将 /proc/sys/net/ipv4/tcp_slow_start_after_idle 设 为 0)。 


























议 阅 读 相 关 的 网 络 调 优 指责。 例如， 由 Sandra K.Johnson 等 人 合 著 的 Performance tuning 


for Linux serverso 


除 此 以 外 ， 你 可 能 还 想 对 MirrorMaker 里 的 生产 者 和 消费 者 进行 调 优 。 首 先 ， 你 想 知 道生 


产 者 或 消费 者 是 不 是 瓶颈 所 在 














生产 者 是 否 在 等 待 消 费 者 提供 更 多 的 数据 ， 或 者 其 他 的 


























什么 ?通过 查看 生产 者 和 消费 者 的 度量 指标 就 可 以 知道 问题 所 在 了 ， 如 果 其 中 的 一 个 进程 
空 几 ， 而 另外 一 个 很 忙 ， 那 么 就 知道 该 对 哪个 进行 调 优 了 。 另 外 一 种 办 法 是 查看 线程 转 储 
(thread dump)， 可 以 使 用 jstack 获得 线程 转 储 。 如 果 MirrorMaker 的 大 部 分 时 间 用 在 轮 询 上 ， 
那么 说 明 消 费 者 出 现 了 瓶颈 ， 如 果 大 部 分 时 间 用 在 发 送 上 ， 那 么 就 是 生产 者 出 现 了 瓶颈 。 
如 果 需 要 对 生产 者 进行 调 优 ， 可 以 使 用 下 列 参数 。 


max.in.flight.requests.per.connection 























默认 情况 下 ，MirrorMaker 只 允许 存在 一 个 处 理 中 的 请 求 。 也 就 是 说 ， 生 产 者 在 发 送 
下 一 个 消息 之 前 ， 当 前 发 送 的 消息 必须 得 到 目标 集群 的 确认 。 这 样 会 对 否 吐 量 造成 限 
制 ， 特 别 是 当 broker 在 对 消息 进行 确认 之 前 出 现 了 严重 的 延迟 。MirrorMaker 之 所 以 要 
限定 请 求 的 数量 ， 是 因为 有 些 消息 在 得 到 成 功 确认 之 前 需要 进行 重 试 ， 而 这 是 唯一 能 
够 保证 消息 次 序 的 方法 。 如 果 不 在 乎 消息 的 次 序 ， 那 么 可 以 通过 增加 max.in.flight. 
requests.per .connection 的 值 来 提升 吞吐 量 。 























Linger .ms 和 batch .size 


如 果 在 进行 监控 时 发 现 生 产 者 总 是 发 送 未 填 满 的 批 次 (比如 ， 度 量 指 标 batch-size-avg 
和 batch-size-max 的 值 总 是 比 batch.size 低 ) ， 那 么 就 可 以 通过 增加 一 些 延迟 来 提升 吞 
吐 量 。 通 过 增加 Latency.ms 可 以 让 生产 者 在 发 送 批 次 之 前 等 待 儿 毫 秒 ， 让 批 次 填充 更 
多 的 数据 。 如 果 发 送 的 数据 都 是 满 批 次 的 ， 同 时 还 有 空余 的 内 存 ， 那 么 可 以 配置 更 大 的 
batch.size， 以 便 发 送 更 大 的 批 次 。 

















看 的 配置 用 于 提升 消费 者 的 吞吐 量 。 








range。MirrorMaker 默认 使 用 range 策略 (用 于 确定 将 哪些 分 区 分 配给 哪个 消费 者 的 
算法 ) 进行 分 区 分 配 。range 策略 有 一 定 的 优势 ， 这 也 就 是 为 什么 它 会 成 为 默认 的 策 
略 。 不 过 range 策略 会 导致 不 公平 现象 。 对 于 MirrorMaker 来 说 ， 最 好 可 以 把 策略 改 为 
round robin, 特别 是 在 镜像 大 量 的 主题 和 分 区 的 时 候 。 要 将 策略 改 为 round robin 算法 ， 
需要 在 消费 者 配置 属性 文件 里 加 上 partition.assignment.strategy=org.apache.kafka. 
clients.consumer .RoundRobinAssignor。 

fetch.max.bytes。 如 果 度 量 指标 显示 fetch-size-avg 和 fetch-size-max 的 数值 与 fetch. 
max.bytes 很 接近 ， 说 明 消 费 者 读 取 的 数据 已 经 接近 上 限 。 如 果 有 更 多 的 可 用 内 存 ， 可 
以 配置 更 大 的 fetch.max.bytes， 消 费 者 就 可 以 在 每 个 请 求 里 读 取 更 多 的 数据 。 
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。 fetch.min.bytes 和 fetch.max.wait。 如 果 度 量 指标 fetch-rate 的 值 很 高 ， 说 明 消 费 者 
发 送 的 请 求 太 多 了 ， 而 且 获 取 不 到 足够 的 数据 。 这 个 时 候 可 以 配置 更 大 的 fetch.min. 
bytes 和 fetch.max.wait， 这 样 消费 者 的 每 个 请 求 就 可 以 获取 到 更 多 的 数据 ，broker 会 
等 到 有 足够 多 的 可 用 数据 时 才 将 响应 返回 。 


8.4 其 他 跨 集群 镜像 方案 


我 们 深入 了 解 了 MirrorMaker， 因 为 MirrorMaker 是 Kafka 的 一 部 分 。 不 过 在 实际 使 用 当 
中 ，MirrorMaker 也 存在 一 些 不 足 。 在 MirrorMaker 之 外 ， 还 有 其 他 的 一 些 替 代 方 案 ， 它 们 
解决 了 MirrorMaker 的 局 限 性 和 复杂 性 问题 。 








8.4.1 优 步 的 uReplicator 


优 步 在 他 们 的 Kafka 集群 上 大 规模 地 使 用 MirrorMaker， 不 过 ， 随 着 主题 和 分 区 的 增加 以 
及 集群 吞吐 量 的 增长 ， 他 们 开始 面临 一 些 问题 。 


再 均衡 延迟 
MirrorMaker 中 的 消费 者 只 是 普通 的 消费 者 ， 在 增加 MirrorMaker 的 线程 和 实例 、 重 局 
MirrorMaker 实例 或 往 白 名 单 里 添加 新 主题 时 ， 消 费 者 都 需要 进行 再 均衡 。 正 如 在 第 4 童 
里 所 看 到 的 那样 ， 再 均衡 要 求 关 闭 所 有 的 消费 者 ， 直 到 新 的 分 区 被 分 配给 消费 者 。 如 果 
主题 和 分 区 的 数量 很 大 ， 整 个 过 程 需要 很 长 的 时 间 。 如 果 使 用 了 旧版 本 的 消费 者 则 更 是 
如 些 ， 比 如 像 优 步 那 样 。 有 时 候 ， 这 会 造成 5~10 分 钟 的 不 可 用 ， 导 致 镜像 过 程 延 后 ， 堆 
积 大 量 的 待 镜像 数据 ， 需 要 更 长 的 时 间 进 行 恢复 ， 这 将 给 其 他 消费 者 带 来 很 大 的 延迟 。 
难以 增加 新 主题 
因为 白 名 单 使 用 了 正则 表达 式 进行 主题 匹配 ， 每 次 新 增 主题 时 ，MirrorMaker 都 需要 进 
行 再 均衡 。 我 们 已 经 看 到 优 步 在 这 方面 所 遭遇 的 痛苦 。 后 来 ， 为 了 避免 意外 的 再 均衡 ， 
他 们 把 每 一 个 需要 镜像 的 主题 都 列 了 出 来 ， 这 意味 着 他 们 需要 手动 往 白 名 单 里 添加 新 主 
题 ， 不 过 这 样 最 起 码 可 以 保证 再 均衡 只 会 在 进行 维护 时 发 生 ， 而 不 是 在 每 次 添加 新 主题 
时 发 生 。 不 过 不 管 怎样 ， 经 常 性 的 维护 是 避免 不 了 的 。 如 果 没 有 做 好 维护 工作 ， 不 同 的 
实例 可 能 拥有 不 同 的 主题 列表 ，MirrorMaker 就 会 无 休止 地 进行 再 均衡 ， 因 为 消费 者 无 
法 就 它们 所 订阅 的 主题 达成 一 致 。 
为 了 解决 上 述 问题 ， 优 步 开发 了 uReplicator。 他 们 使 用 Apache Helix (以 下 简称 Helix) 作 
为 中 心 控制 器 (具有 高 可 用 性 )， 控 制 器 管理 着 主题 列表 和 分 配给 每 个 uReplicator 实例 
的 分 区 。 管 理 员 通过 REST API 添加 新 主题 ，uReplicator 负责 将 分 区 分 配给 不 同 的 消费 
者 。 优 步 使 用 自己 开发 的 Helix Consumer 替换 MirrorMaker 里 的 Kafka Consumer。Helix 
Consumer 接受 由 Helix 控制 器 分 配 的 分 区 ， 而 不 是 在 消费 者 间 进 行 再 均衡 〈 更 多 细节 参考 
第 4 章 )， 从 而 避免 了 再 均衡 ， 并 改 为 监听 来 自 Helix 控制 器 的 分 配 变更 事件 。 


优 步 在 他 们 的 博客 上 分 享 了 uReplicator 的 架构 细节 及 其 所 经 历 的 改进 过 程 。 到 目前 为 止 ， 
我 们 并 不 知道 是 否 还 有 其 他 公司 在 使 用 uReplicator。 或 许 大 部 分 公司 都 还 达 不 到 Uber 那 
样 的 规模 ， 也 没有 遇 到 相同 的 问题 ， 又 或 者 新 引入 的 Helix 对 于 他 们 来 说 需要 进行 额外 的 
学 习 和 管理 ， 增 加 了 整个 项 目的 复杂 性 。 
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8.4.2 Confluent 的 Replicator 


在 优 步 开发 uReplicator 的 同时 ，Confluent 也 开发 了 他 们 的 Replicator。 除 了 名 字 有 点 相似 
外 ， 它 们 之 间 没 有 任何 共同 点 ， 所 要 解决 的 问题 也 不 一 样 。Replicator 为 Confluent 的 企业 
用 户 解决 了 他 们 在 使 用 MirrorMaker 进行 多 集群 部 署 时 所 遇 到 的 问题 。 
分 散 的 集群 配置 
MirrorMaker 只 能 做 到 源 集群 和 目标 集群 之 间 的 数据 同步 ， 而 主题 可 以 有 不 同 的 分 
不 同 的 复制 系数 和 不 同 的 配置 。 如 果 将 源 集群 的 保留 时 间 从 1 周 改 为 3 周 ， 但 忘记 给 灾 
备 集群 也 做 同样 的 修改 ， 一 旦 灾 备 集群 发 生 了 失效 备 援 ， 就 会 丢失 几 周 的 数据 。 通 过 手 
动 的 方式 对 所 有 配置 进行 同步 很 容易 出 错 ， 而 且 如 果 系 统 出 现 了 不 同步 ， 会 导致 下 游 的 
应 用 或 者 镜像 进程 失效 。 


在 集群 管理 方面 所 面临 的 挑战 
MirrorMaker 一 般 是 以 多 实例 的 集群 方式 进行 部 署 的 ， 这 意味 着 它 本 身 也 需要 进行 部 署 、 
监控 和 配置 管理 。 两 个 配置 文件 和 大 量 的 配置 参数 让 MirrorMaker 的 配置 管理 变 得 极 具 
挑战 性 。 如 果 集 群 超 过 了 两 个 ， 而 且 集 群 间 的 复制 是 双向 的 ， 那 么 情况 会 更 加 严峻 。 如 
果 有 3 个 双 活 集群 ， 就 有 6 个 MirrorMaker 集群 需要 进行 部 署 、 监 控 和 配置 ， 而 且 每 个 
集群 至 少 需要 3 个 实例 。 如 果 有 5 个 双 活 集群 ， 就 需要 20 个 MirrorMaker 集群 。 


为 了 减轻 开 部 门 的 负担 ，Confluent 将 Replicator 实现 为 Connect 的 源 连 接 器 ， 从 Kafka 
集群 读 取 数 据 ， 而 不 是 从 数据 库 读 取 。 在 第 7 章 介 绍 Connect 的 架构 时 ， 我 们 知道 ， 连 
接 器 会 将 工作 分 配给 多 个 任务 。 在 Replicator 里 ， 每 个 任务 包含 了 一 个 消费 者 和 一 个 生 
产 者 。Connect 根据 实际 情况 将 不 同 的 任务 分 配给 不 同 的 worker 市 点 ， 因 此 单个 服务 器 
上 可 能 会 有 多 个 任务 ， 或 者 任务 被 分 散在 多 个 服务 器 上 ， 这 样 就 避免 了 手动 去 配置 每 个 
MirrorMaker 实例 需要 多 少 个 线程 以 及 每 台 服 务 器 需要 多 少 个 MirrorMaker 实例 。Connect 
还 提供 了 REST API， 用 于 集中 管理 连接 器 和 任务 。 假 设 大 部 分 Kafka 都 部 署 了 Connect 
(比如 为 了 将 数据 库 的 变更 事件 写 入 Kafka) ， 那 么 通过 在 Connect 里 运行 Replicator， 就 可 
以 减少 需要 管理 的 集群 数量 。 另 一 个 重大 的 改进 在 于 ，Replicator 不 仅 会 从 Kafka 主题 复制 
数据 ， 它 还 会 从 Zookeeper 上 复制 主题 的 配置 信息 。 


8.5 总 结 


本 章 从 解释 为 什么 需要 多 个 Kafka 集群 开始 ， 介 绍 了 几 种 从 简单 到 复杂 的 多 集群 架构 ， 还 
介绍 了 Kafka 失效 备 援 的 实现 细节 ， 并 比较 了 当前 几 种 可 用 的 方案 。 接 下 来 介绍 了 一 些 可 
用 的 工具 ， 从 MirrorMaker 开始 ， 说 明了 在 生产 环境 中 使 用 MirrorMaker 要 注意 的 细节 问 
题 ， 最 后 介绍 了 MirrorMaker 之 外 的 两 个 替代 方案 ， 用 于 弥补 MirrorMaker 本 身 的 不 足 。 


不 管 最 终 选 择 哪 一 种 架构 和 工具 ， 对 多 集群 配置 和 镜像 管道 进行 测试 总 是 少不了 的 。 因 为 
Kafka 多 集群 管理 比 关系 型 数据 库 要 简单 得 多 ， 所 以 很 多 组 织 总 是 忽视 了 对 它 进 行 适当 的 
设计 、 规 划 、 测 试 、 自 动 化 部 署 、 监 控 和 维护 。 重 视 多 集群 的 管理 问题 ， 并 把 它 作 为 组 织 
的 全 盘 灾 备 计 划 或 多 区 域 计 划 的 一 部 分 ， 才 有 可 能 更 好 地 管理 好 多 个 Kafka 集群 。 
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第 9 章 


管理 Kafka 





Kafka 提供 了 一 些 命令 行 工 具 ， 用 于 管理 集群 的 变更 。 这 些 工 具 使 用 Java 类 实现 ，Kafka 
提供 了 一 些 脚本 来 调用 这 些 Java 类 。 不 过 ， 它 们 只 提供 了 一 些 基本 的 功能 ， 无 法 完成 那 
些 复杂 的 操作 。 本 章 将 介绍 一 些 工 具 ， 它 们 是 Kafka 开放 源码 项 目的 一 部 分 。Kafka 社区 
也 开发 了 很 多 高 级 的 工具 ， 我 们 可 以 在 Apache Kafka 网 站 上 找到 它们 ， 不 过 它们 并 不 属于 
Kafka 项 目 。 











管理 操作 授权 


虽然 Kafka 实现 了 操作 主题 的 认证 和 授权 控制 ， 但 还 不 支持 集群 的 其 他 大 部 
分 操作 。 也 就 是 说 ， 在 没有 认证 的 情况 下 也 可 以 使 用 这 些 命令 行 工 具 ， 在 没 
有 安全 检查 和 审计 的 情况 下 也 可 以 执行 诸如 主题 变更 之 类 的 操作 。 不 过 这 些 
功能 正在 开发 当中 ， 应 该 很 快 就 能 发 布 。 


9.1 主题 操作 


使 用 kafka-topics.sh 工具 可 以 执行 主题 的 大 部 分 操作 (配置 变更 部 分 已 经 被 弃 用 并 被 移动 
到 kafka-configs.sh 工具 当中 )。 我 们 可 以 用 它 创 建 、 修 改 、 删 除 和 查看 集群 里 的 主题 。 要 
使 用 该 工具 的 全 部 功能 ， 需 要 通过 --zookeeper 参数 提供 Zookeeper 的 连接 字符 串 。 在 下 
面 的 例子 里 ，Zookeeper 的 连接 字符 串 是 zoo1.example.com:2181/kafka-cluster。 


检查 版 本 


Kafka 的 大 部 分 命令 行 工 具 直接 操作 Zookeeper 上 的 元 数据 ， 并 不 会 连接 到 
broker 上 。 因 此 ， 要 确保 所 使 用 工具 的 版 本 与 集群 里 的 broker 版 本 相 匹配 。 
直接 使 用 集群 broker 自 带 的 工具 是 最 保险 的 。 
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9.1.1 创建 主题 


在 集群 里 创建 一 个 主题 需要 用 到 3 个 参数 。 
broker 级 别 的 默认 值 。 


主题 名 字 
想 要 创建 的 主题 的 名 字 。 
复制 系数 
主题 的 副本 数量 。 
区 
指定 主题 配置 


漆 





分 




















主题 名 字 可 以 包含 字母 、 数 字 、 
主题 的 命名 


格式 的 主题 一 
消费 者 群 组 的 
划 线 来 命名 ， 

(比如 “topic.1” 会 变 成 “topic_1”)。 














试 着 运行 下 面 的 命令 : 


kafka-topics.sh --zookeeper <zookeeper Connect> 
--replication-factor <integer> 


--Create 
--partitions <integer> 


必须 提供 的 ， 尽 管 有 些 已 经 有 了 


可 以 在 创建 主题 时 显 式 地 指定 复制 系数 或 者 对 配置 进行 覆盖 ， 不 过 我 们 不 打 
算 在 这 里 介绍 如 何 做 到 这 些 。 稍 后 会 介绍 如 何 进行 配置 覆盖 ， 它 们 是 通过 向 
kafka-topics.sh 传递 - -config 参数 来 实现 的 。 本 章 还 会 介绍 分 区 的 重 分 配 。 


下 划 线 以 及 英文 状态 下 的 破 折 号 和 句号 。 


主题 名 字 的 开头 部 分 包含 两 个 下 划 线 是 合法 的 ， 但 不 建议 这 么 做 。 具 有 这 种 
股 是 集群 的 内 部 主题 (比如 _consumer_offsets 主题 用 于 保存 
偏 移 量 )。 也 不 建议 在 单个 集群 里 使 用 英文 状态 下 的 句号 和 下 
因为 主题 的 名 字 会 被 用 在 度量 指 


标 上 ， 句 号 会 被 替换 成 下 划 线 


--topic <string> 


这 个 命令 将 会 创建 一 个 主题 ， 主 题 的 名 字 为 指定 的 值 ， 并 包含 了 指定 数量 的 分 区 。 集 群 会 











为 每 个 分 区 创建 指定 数量 的 副本 。 如 果 为 集群 指定 了 基于 机 架 信息 的 副本 分 配 策略 ， 那 么 


区 的 副本 会 分 布 在 不 同 的 机 架 上 。 如 果 不 需要 基于 机 架 








分 
--disable-rack-aware。 





示 
个 副本 。 


# kafka-topics.sh --zookeeper zoo1.example.com:2181 
--topic my-topic --replication-factor 2 
Created topic "my-topic". 

# 


信息 的 分 配 策略 ， 可 以 指定 参数 


例 : 使 用 以 下 命令 创建 一 个 叫 作 my-topic 的 主题 ， 主 题 包含 8 个 分 区 ， 每 个 分 区 拥有 两 


/kafka-cluster --create 


--partitions 8 
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忽略 重复 创建 主题 的 错误 


在 自动 化 系统 里 调用 这 个 脚本 时 ， 可 以 使 用 --if-not-exists 参数 ， 这 样 即 
使 主题 已 经 存在 ， 也 不 会 抛 出 重复 创建 主题 的 错误 。 








9.1.2 ”增加 分 区 

有 时 候 ， 我 们 需要 为 主题 增加 分 区 数量 。 主 题 基 于 分 区 进行 伸缩 和 复制 ， 增 加 分 区 主要 是 
为 了 扩展 主题 容量 或 者 降低 单个 分 区 的 厨 吐 量 。 如 果 要 在 单个 消费 者 群 组 内 运行 更 多 的 消 
费 者 ， 那 么 主题 数量 也 需要 相应 增加 ， 因 为 一 个 分 区 只 能 由 群 组 里 的 一 个 消费 者 读 取 。 
调整 基于 键 的 主题 

从 消费 者 角度 来 看 ， 为 基于 键 的 主题 添加 分 区 是 很 困难 的 。 因 为 如 果 改 变 了 

分 区 的 数量 ， 键 到 分 区 之 间 的 映射 也 会 发 生变 化 。 所 以 ， 对 于 基于 键 的 主题 
来 说 ， 建 议 在 一 开始 就 设置 好 分 区 数量 ， 避 免 以 后 对 其 进行 调整 。 
































名 
































忽略 主题 不 存在 的 错误 


在 使 用 - -atter 命令 修改 主题 时 ， 如 果 指 定 了 --if-exists 参数 ， 主 题 不 存 
在 的 错误 就 会 被 色 略 。 如 果 要 修改 的 主题 不 存在 ， 该 命令 并 不 会 返回 任何 错 
误 。 在 主题 不 存在 的 时 候 本 应 该 创建 主题 ， 但 它 却 把 错误 隐藏 起 来 ， 因 此 不 
建议 使 用 这 个 参数 。 


























示例 : 将 my-topic 主题 的 分 区 数量 增加 到 16。 


# kafka-topics.sh --zookeeper zoo1.exampLe.Com:2181/kafka-cLuster 
--alter -- topic my-topic --partitions 16 

WARNING: If partitions are increased for a topic that has a key, 
the partition logic or ordering of the messages will be affected 
Adding partitions succeeded! 

# 


减少 分 区 数量 

我 们 无 法 减少 主题 的 分 区 数量 。 因 为 如 果 删 除了 分 区 ， 分 区 里 的 数据 也 一 并 
被 删除 ， 导 致 数据 不 一 致 。 我 们 也 无 法 将 这 些 数据 分 配给 其 他 分 区 ， 因 为 这 
样 做 很 难 ， 而 且 会 出 现 消 息 乱 序 。 所 以 ， 如 果 一 定 要 减少 分 区 数量 ， 只 能 删 
除 整 个 主题 ， 然 后 重新 创建 它 。 






































9.1.3 删除 主题 

如 果 一 个 主题 不 再 被 使 用 ， 只 要 它 还 存在 于 集群 里 ， 就 会 占用 一 定数 量 的 磁盘 空间 和 文件 
句柄 。 把 它 删 除 就 可 以 释放 被 占用 的 资源 。 为 了 能 够 删除 主题 ，broker 的 delete. topic. 
enable 参数 必须 被 设置 为 true。 如 果 该 参数 被 设 为 false， 删 除 主题 的 请 求 会 被 忽略 。 








A 
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出 除 主题 会 丢弃 主题 里 的 所 有 数据 。 这 是 一 个 不 可 逆 的 操作 ， 所 以 在 执行 时 
要 十 分 小 心 。 








示例 : 删除 my-topic 主题 。 


# kafka-topics.sh --zookeeper zoo1.exampLe.com:2181/kafka-CLuster 
--delete -- topic my-topic 

Topic my-topic is marked for deletion. 

Note: This will have no impact if delete.topic.enable is not set 
to true. 

# 


9.1.4 列 出 集群 里 的 所 有 主题 

可 以 使 用 主题 工具 列 出 集群 里 的 所 有 主题 。 每 个 主题 占用 一 行 输 出 ， 主 题 之 间 没 有 特 
定 的 顺序 。 

示例 : 列 出 集群 里 的 所 有 主题 


# kafka-topics.sh --zookeeper zoo1.example.com:2181/kafka-cluster 
--List 

my-topic - marked for deletion 

other-topic 

# 


9.1.5 列 出 主题 详细 信息 


主题 工具 还 能 用 来 获取 主题 的 详细 信息 。 信 息 里 包含 了 分 区 数量 、 主 题 的 覆盖 配置 以 及 
每 个 分 区 的 副本 清单 。 如 果 通 过 --topic 参数 指定 特定 的 主题 ， 就 可 以 只 列 出 指定 主题 
的 详细 信息 。 

示例 : 列 出 集群 里 所 有 主题 的 详细 信息 。 


# kafka-topics.sh --zookeeper zoo1.example.com:2181/kafka-cluster --describe 























Topic:other-topic PartitionCount:8 ReplicationFactor:2 Configs: 
Topic:other-topic Partition: 0 和 Replicas: 1,0 Isr: 1,0 
Topic:other-topic Partition: 1 Replicas: 0,1 Isr: .0,1 
Topic:other-topic Partition: 2 Replicas: 1,0 Isr: 1,0 
Topic:other-topic Partition: 3 Replicas: 0,1 Isr: 0,1 
Topic:other-topic Partition: 4 Replicas: 1,0 Isr: 1,0 
Topic:other-topic Partition: 5 Replicas: 0,1 Isr: 0,1 
Topic:other-topic Partition: 6 Replicas: 1,0 Isr: 1,0 
Topic:other-topic Partition: 7 Replicas: 0,1 Isr: 0,1 
# 











describe 命令 还 提供 了 一 些 参数 ， 用 于 过 着 输出 结果 ， 这 在 诊断 集群 问题 时 会 很 有 用 。 不 
Le den 
主题 和 分 区 )。 这 些 参 数 也 无 法 与 List 命令 一 起 使 用 (最 后 一 部 分 会 详细 说 明 原 因 )。 
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使 用 --topics-with-overrides 参数 可 以 找 出 所 有 包含 覆盖 配置 的 主题 ， 它 只 会 列 出 包含 了 
与 集群 不 一 样 配置 的 主题 。 

有 两 个 参数 可 用 于 找 出 有 问题 的 分 区 。 使 用 - -under-repLicated-partitions 参数 可 以 列 出 
所 有 包含 不 同步 副本 的 分 区 。 使 用 --unavailable-partitions 参数 可 以 列 出 所 有 没有 首领 
的 分 区 ， 这 些 分 区 已 经 处 于 离线 状态 ， 对 于 生产 者 和 消费 者 来 说 是 不 可 用 的 。 

示例 : 列 出 包含 不 同步 副本 的 分 区 。 


# kafka-topics.sh --zookeeper zoo1.example.com:2181/kafka-cluster 
--describe --under-replicated-partitions 


























Xl 





Topic: other-topic Partition: 2 Leader: 0 Replicas: 1,0 
Isr: 0 
Topic: other-topic Partition: 4 Leader: 0 Replicas: 1,0 
Isr: 0 


9.2 消费 者 群 组 


在 Kafka 里 ， 有 两 个 地 方 保存 着 消费 者 群 组 的 信息 。 对 于 旧版 本 的 消费 者 来 说 ， 它 们 的 信 
息 保存 在 Zookeeper 上 ; 对 于 新 版 本 的 消费 者 来 说 ， 它 们 的 信息 保存 在 broker 上 。kafka- 
consumer-groups.sh 工具 可 以 用 于 列 出 上 述 两 种 消费 者 群 组 。 它 也 可 以 用 于 删除 消费 者 群 
组 和 偏 移 量 信 息 ， 不 过 这 个 功能 仅 限 于 旧版 本 的 消费 者 群 组 〈 信 息 保 存在 Zookeeper 上 ) 。 
在 对 旧版 本 的 消费 者 群 组 进行 操作 时 ， 需 要 通过 - -zookeeper 参数 指定 Zookeeper 的 地 址 ; 
在 对 新 版 本 的 消费 者 群 组 进行 操作 时 ， 则 需要 使 用 --bootstrap-server 参数 指定 broker 的 
主机 名 和 端口 。 


9.2.1 列 出 并 描述 群 组 


在 使 用 旧版 本 的 消费 者 客户 端 时 ， 可 以 使 用 --zookeeper 和 --List 参数 列 出 消费 者 群 
组 ,在 使 用 新 版 本 的 消费 者 客户 端 时 ， 则 要 使 用 --bootstrap-server、--List 和 - -new- 


consumer 参数 。 


示例 : 列 出 旧版 本 的 消费 者 群 组 。 


# kafka-consumer-groups.sh --zookeeper 
zoo1.example.com:2181/kafka-cluster --list 
console-consumer-79697 

myconsumer 

# 


示例 : 列 出 新 版 本 的 消费 者 群 组 。 


# kafka-consumer-groups.sh --new-consumer --bootstrap-server 
kafkal.example.com:9092/kafka-cluster --list 
kafka-python-test 

my-new-consumer 

# 









































2 
时 
汤 、 


对 于 列 出 的 任 
就 可 以 获取 该 群 组 的 详细 信息 。 





它 会 列 出 群 组 里 所 有 主题 的 信息 和 每 个 分 


示例 : 获取 旧版 本 消费 者 群 组 testgroup 的 详细 信息 。 


# kafka-consumer-groups.sh --zookeeper zoo1.example.com:2181/kafka-cluster 


--describe --group testgr 
GROUP 

CURRENT-OFFSET LOG-END-OF 
myconsumer 

1688 1688 
myconsumer_host1.example. 
myconsumer 

1418 1418 
myconsumer_host1.example. 
myconsumer 

1314 1315 
myconsumer_host1.example. 
myconsumer 

2012 2012 
myconsumer_host1.example. 
myconsumer 

1089 1089 
myconsumer_host1.example. 
myconsumer 

1429 1432 
myconsumer_host1.example. 
myconsumer 

1634 1634 
myconsumer_host1.example. 
myconsumer 

2261 2261 
myconsumer_host1.example. 
# 


oup 
TOPIC 
LAG 
my-topic 
0 
Com-1478188622741-7dab5ca7-0 
my-topic 
0 
Com-1478188622741-7dab5ca7-0 
my-topic 
1 
Com-1478188622741-7dab5ca7-0 
my-topic 
0 
Com-1478188622741-7dab5ca7-0 
my-topic 
0 
Com-1478188622741-7dab5ca7-0 
my-topic 
3 
Com-1478188622741-7dab5ca7-0 
my-topic 
0 
Com-1478188622741-7dab5ca7-0 
my-topic 
0 
Com-1478188622741-7dab5ca7-0 


PARTIT 


FSET OWNER 


输出 结果 里 包含 了 如 表 9-1 所 示 的 字段 。 





表 9-1: 输出 结果 中 的 字段 


和 群 组 来 说 ， 使 用 - -describe 代替 --Ltst， 并 通过 - -group 指定 特定 的 群 组 ， 


区 的 偏 移 量 。 





ION 





字段 描述 

GROUP 消费 者 群 组 的 名 字 
TOPIC 正在 被 读 取 的 主题 名 字 
PARTITION 正在 被 读 取 的 分 区 ID 








CURRENT-OFFSET 
LOG-END-OFFSET 


消费 者 群 组 最 近 提 交 的 偏 移 量 ， 也 就 是 消费 者 在 分 
当前 高 水 位 偏 移 量 ， 也 就 是 最 近 一 个 被 读 取 消息 的 





















































x 里 读 取 的 当前 位 置 








偏 移 量 ， 同 时 也 是 最 近 一 个 被 提 


LAG 消费 者 的 CURRENT-OFFSET 和 broker 的 LOG-END-OFFSET 之 间 的 差距 
OWNER 消费 者 群 组 里 正在 读 取 该 分 区 的 消费 者 。 这 是 一 个 消费 者 的 ID ， 不 一 定 包含 消费 
者 的 主机 名 
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9.2.2 ”删除 群 组 


只 有 旧版 本 的 消费 者 客户 端 才 支 持 删 除 群 组 的 操作 。 删 除 群 组 操作 将 从 Zookeeper 上 移 除 
整个 群 组 ， 包 括 所 有 已 保存 的 偏 移 量 。 在 执行 该 操作 之 前 ， 必 须 关 闭 所 有 的 消费 者 。 如 
果 不 先 执行 这 一 步 ， 可 能 会 导致 消费 者 出 现 不 可 预测 的 行为 ， 因 为 群 组 的 元 数据 已 经 从 
Zookeeper 上 移 除了 。 


示例 : 删除 消费 者 群 组 testgroup。 


# kafka-consumer-groups.sh --zookeeper 
zoo1.example.com:2181/kafka-cluster --delete --group testgroup 
Deleted all consumer group information for group testgroup in 
zookeeper. 

# 


该 命令 也 可 以 用 于 在 不 删除 整个 群 组 的 情况 下 删除 单个 主题 的 偏 移 量 。 再 次 强调 ， 在 进行 
删除 操作 之 前 ， 需 要 先 关 闭 消 费 者 ， 或 者 不 要 让 它们 读 取 即 将 被 删除 的 主题 。 


示例 : 从 消费 者 群 组 testgroup 里 删除 my-topic 主题 的 偏 移 量 。 


# kafka-consumer-groups.sh --zookeeper 
zo01.example.com:2181/kafka-cluster --delete --group testgroup 
--topic my-topic 

Deleted consumer group information for group testgroup topic 
my-topic in zoo keeper. 

# 


9.2.3 ” 偏 移 量 管理 


除了 可 以 显示 和 删除 消费 者 群 组 (使 用 了 旧版 本 消费 者 客户 端 ) 的 偏 移 量 外 ， 还 可 以 获取 
偏 移 量 ， 并 保存 批 次 的 最 新 偏 移 量 ， 从 而 实现 偏 移 量 的 重 置 。 在 需要 重新 读 取消 息 或 者 因 
消费 者 无 法 正常 处 理 消 息 ( 比 如 包含 了 非法 格式 的 消息 ) 需要 跳 过 偏 移 量 时 ， 需 要 进行 偏 
移 量 重 置 。 
































管理 已 经 提交 到 Kafka 的 偏 移 量 

目前 ， 还 没有 工具 可 以 用 于 管理 由 消费 者 客户 端 提交 到 Kafka 的 偏 移 量 ， 管 理 
功能 只 对 提交 到 Zookeeper 的 偏 移 量 可 用 。 另 外 ， 为 了 能 够 管理 提交 到 Kafka 
的 消费 者 群 组 偏 移 量 ， 需 要 在 客户 端 使 用 相应 的 API 来 提交 群 组 的 偏 移 量 。 




















1. 导出 偏 移 量 

Kafka 没有 为 导出 偏 移 量 提供 现成 的 脚本 ， 不 过 可 以 使 用 kafka-run-class.sh 脚本 调用 底层 的 
Java 类 来 实现 导出 。 在 导出 偏 移 量 时 ， 会 生成 一 个 文件 ， 文 件 里 包含 了 分 区 和 偏 移 量 的 信 
息 。 偏 移 量 信息 以 一 种 导入 工具 能 够 识别 的 格式 保存 在 文件 里 。 每 个 分 区 在 文件 里 占用 一 
行 ， 格 式 为 : /consumers/GROUPNAME/offsets/topic/TOPICNAME/PARTITIONID-0:OFFSET。 


示例 : 将 群 组 testgroup 的 偏 移 量 导出 到 offsets 文件 里 。 





























# kafka-run-class.sh kafka.tooLs.ExportZkOffsets 
--zkconnect zoo1.example.com:2181/kafka-cluster --group testgroup 
--output-file offsets 

# cat offsets 
/consumers/testgroup/offsets/my-topic/0:8905 
/consumers/testgroup/offsets/my-topic/1:8915 
/consumers/testgroup/offsets/my-topic/2:9845 
/consumers/testgroup/offsets/my-topic/3:8072 
/consumers/testgroup/offsets/my-topic/4:8008 
/consumers/testgroup/offsets/my-topic/5:8319 
/consumers/testgroup/offsets/my-topic/6:8102 
/consumers/testgroup/offsets/my-topic/7:12739 

# 


2. 导入 偏 移 量 

偏 移 量 导入 工具 与 导出 工具 做 的 事情 刚好 相反 ， 它 使 用 之 前 导出 的 文件 来 重 置 消费 者 群 组 
的 偏 移 量 。 一 般 情况 下 ， 我 们 会 导出 消费 者 群 组 的 当前 偏 移 量 ， 并 将 导出 的 文件 复制 一 份 
(这 样 就 有 了 一 个 备份 )， 然 后 修改 复制 文件 里 的 偏 移 量 。 这 里 要 注意 ， 在 使 用 导入 命令 
时 ， 不 需要 使 用 --group 参数 ， 因 为 文件 里 已 经 包含 了 消费 者 群 组 的 名 字 。 

先 关 闭 消费 者 

在 导入 偏 移 量 之 前 ， 必 须 先 关闭 所 有 的 消费 者 。 如 果 消 费 者 群 组 处 于 活跃 状 
态 ， 它 们 不 会 读 取 新 的 偏 移 量 ， 反 而 有 可 能 将 导入 的 偏 移 量 履 盖 掉 。 

















示例 : 从 offsets 文件 里 将 偏 移 量 导 入 到 消费 者 群 组 testgroup。 


# kafka-run-class.sh kafka.tooLs.ImportZkOffsets --zkconnect 
zoo1.example.com:2181/kafka-cluster --input-file offsets 
# 


9.3 ”动态 配置 变更 


我 们 可 以 在 集群 处 于 运行 状态 时 覆盖 主题 配置 和 客户 端的 配额 参数 。 我 们 打算 在 未 来 增加 
更 多 的 动态 配置 参数 ， 这 也 是 为 什么 这 些 参数 被 单独 放 进 了 kafka-configs.sh。 这 样 就 可 以 
为 特定 的 主题 和 客户 端 指定 配置 参数 。 一 旦 设置 完毕 ， 它 们 就 成 为 集群 的 永久 配置 ， 被 保 
存在 Zookeeper 上 ，broker 在 启动 时 会 读 取 它 们 。 不 管 是 在 工具 里 还 是 文档 里 ， 它 们 所 说 
的 动态 配置 参数 都 是 基于 “主题 ”实例 或 者 “客户 端 ” 实 例 的 ， 都 是 可 以 被 “覆盖 ”的 。 


与 之 前 介绍 的 工具 一 样 ， 这 里 也 需要 通过 - -zookeeper 参数 提供 Zookeeper 集群 的 连接 字符 
串 。 在 下 面 的 例子 里 ，Zookeeper 的 连接 字符 串 是 “zool.example.com:2181/kafka-cluster”。 


9.3.1 覆盖 主题 的 默认 配置 


为 了 满足 不 同 的 使 用 场景 ， 主 题 的 很 多 参数 都 可 以 进行 单独 的 设置 。 它 们 大 部 分 都 有 
broker 级 别 的 默认 值 ， 在 没有 被 覆盖 的 情况 下 使 用 默认 值 。 


更 改 主题 配置 的 命令 格式 如 下 。 
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kafka-configs.sh --zookeeper zoo1.exampLe.Com:2181/kafka-cLuster 
--alter --entity-type topics --entity-name <topic name> 
--add-config <key>=<value>[ ,<key>=<value>...] 


可 用 的 主题 配置 参数 〈 键 ) 如 表 9-2 所 示 。 


表 9-2: 可 用 的 主题 配置 参数 


配置 项 


描述 





cleanup.policy 


compression.type 


delete.retention.ms 


file.delete.delay.ms 
flush.messages 
flush.ms 
index.interval.bytes 
max.message.bytes 


message.format.version 


message.timestamp.difference.max.ms 


message.timestamp.type 


min.cleanable.dirty.ratio 


min.insync.replicas 
preallocate 
retention.bytes 
retention.ms 
segment.bytes 
segment.index.bytes 
segment.jitter.ms 


segment.ms 


unclean.leader.election.enable 


如 果 被 设置 为 compact， 只 有 最 新 包含 了 指定 key 的 消息 会 被 保留 下 
来 (压缩 日 志 )， 其 他 的 被 丢弃 掉 


broker 在 将 

gzip”、“sn 
被 标识 为 待 
缩 日 志 类 型 
从 磁盘 上 删 
需要 收 到 多 少 个 消息 才能 将 它们 刷新 到 磁盘 
在 将 消息 刷新 到 磁盘 之 前 可 以 等 待 多 长 时 间 ， 以 ms 为 单位 
































消息 批 次 写 入 磁盘 时 所 使 用 的 压缩 类 型 ， 目 前 支持 
appy” 和 “lz4” 











I 除 的 数据 能 够 保留 多 久 ， 以 ms 为 单位 。 该 参数 只 对 压 
的 主题 有 效 











除 日 志 片 段 和 索引 之 前 可 以 等 待 多 长 时 间 ， 以 ms 为 单位 




















日 志 片 段 的 两 个 索引 之 间 能 够 容纳 的 消息 字 节 数 


最 大 } 


肖 息 字 市 数 

















broker 将 消息 写 入 磁盘 时 所 使 用 的 消息 格式 ， 必 须 是 有 效 的 API 版 
本 号 (比如 
消息 自 带 的 时 间 惟 和 broker 收 到 消息 时 的 时 间 惟 之 间 最 大 的 差 值 ， 

















“0.10.0”) 












































以 ms 为 单位 。 该 参数 只 在 messsage.timestamp.type 被 设 为 Create- 
Time 时 有 效 

在 将 消息 写 入 磁盘 时 使 用 哪 一 种 时 间 戳 。 目 前 支持 两 种 值 ， 甚 中 
CreateTime 指 客户 端 指定 的 时 间 蕉 ， 而 LogAppendTime 指 消息 被 写 
入 分 区 时 的 时 间 戳 

日 志 压 缩 器 压缩 分 区 的 频率 ， 使 用 未 压缩 日 志 片 段 数 与 总 日 志 分 段 
数 之 间 的 比例 来 表示 。 该 参数 只 对 压缩 日 志 类 型 的 主题 有 效 

可 用 分 区 的 最 少 同步 副本 








如 果 被 设 为 true， 需 要 为 新 的 日 志 片 段 预 分 配 空间 





主题 能 够 保留 的 消息 量 ， 以 字 市 为 单位 
主题 需要 保留 消息 多 长 时 间 ， 以 ms 为 单位 





日 志 片 段 的 消息 字 节 数 

单个 日 志 片 段 的 最 大 索引 字 节 数 

滚动 日 志 片 断 时 ， 在 segment.ms 基础 上 增加 的 随机 毫秒 数 
日 志 片 段 多 长 时 间 滚 动 一 次 ， 以 ms 为 单位 














如 采 被 设 为 true， 不 彻底 的 首领 选择 无 效 


示例 : 将 主题 my-topic 的 消息 保留 时 间 设 为 1 个 小 时 (3 600 000ms ) 。 


# kafka-configs.sh --zookeeper zoo1.example.com:2181/kafka-cluster 
--alter -- entity-type topics --entity-name my-topic --add-config 


retention.ms=3600000 


Updated config for topic: "my-topic". 


# 
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9.3.2 ”覆盖 客户 端的 默认 配置 


对 于 Kafka 客户 端 来 说 ， 只 能 覆盖 生产 者 配额 和 消费 者 配额 参数 。 这 两 个 配额 都 以 


EL 


字 节 每 


秒 为 单位 ， 表 示 客 户 端 在 每 个 broker 上 的 生产 速率 或 消费 速率 。 也 就 是 说 ， 如 果 和 集群 里 有 
5 个 broker， 生 产 者 的 配额 是 10MB/s， 那 么 它 可 以 以 10MB/As 的 速率 在 单个 broker 上 生成 





数据 » 总 共 的 速率 可 以 达到 SOMB/s。 


客户 端 ID 与 消费 者 群 组 


客户 端 岂 可 以 与 消费 者 群 组 的 名 字 不 一 样 。 消 费 者 可 以 有 自己 的 也， 因此 
不 同 群 组 里 的 消费 者 可 能 具有 相同 的 ID。 在 为 消费 者 客户 端 设置 ID 时 ， 最 
好 使 用 能 够 表明 它们 所 属 群 组 的 标识 符 ， 这 样 便于 群 组 共享 配额 ， 从 日 志 里 














查找 负责 请 求 的 群 组 也 更 容易 一 些 。 


更 改 客户 端 配 置 的 命令 格式 如 下 : 


kafka-configs.sh --zookeeper zoo01.example.com:2181/kafka-cluster 
--alter -- entity-type clients --entity-name <client ID> 
--add-config <key>=<value>[ ,<key>=<value>...] 


可 用 的 客户 端 配置 参 数 ( 键 ) 如 表 9-3 所 示 。 
表 9-3: 可 用 的 客户 端 配 置 参数 
配置 项 描述 














producer_bytes_rate 单个 生产 者 每 秒 钟 可 以 往 单个 broker 上 生成 的 消息 字 节 数 
单个 消费 者 每 秒 钟 可 以 从 单个 broker 读 取 的 消息 字 节 数 











consumer_bytes_rate 


9.3.3” 列 出 被 覆盖 的 配置 





使 用 命令 行 工具 可 以 列 出 所 有 被 覆盖 的 配置 ， 从 而 用 于 检查 主题 或 客户 端的 配置 。 


工具 类 似 ， 这 个 功能 通过 - -describe 命令 来 实现 。 
示例 : 列 出 主题 my-topic 所 有 被 覆盖 的 配置 。 


# kafka-configs.sh --zookeeper zoo1.exampLe.Com:2181/kafka-cLuster 
--describe -- entity-type topics --entity-name my-topic 

Configs for topics:my-topic are 
retention.ms=3600000,segment.ms=3600000 

# 


只 能 显示 主题 的 覆盖 配置 
































息 ， 必 须 同 时 为 它 提供 集群 的 默认 配置 信息 。 


与 其 他 


这 个 命令 只 能 用 于 显示 被 覆盖 的 配置 ， 不 包含 集群 的 默认 配置 。 目 前 还 无 
法 通过 Zookeeper 或 Kafka 实现 动态 地 获取 broker 本 身 的 配置 。 也 就 是 
说 ， 在 进行 自动 化 时 ， 如 果 要 使 用 这 个 工具 来 获得 主题 和 客户 端的 配置 信 
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9.3.4 ” 移 除 被 覆盖 的 配置 


动态 的 配置 完全 可 以 被 移 除 ， 从 而 恢复 到 集群 的 默认 配置 。 可 以 使 用 --atlter 命令 和 
--delete-config 参数 来 删除 被 覆盖 的 配置 。 


示例 : 删除 主题 my-topic 的 retention.ms 覆盖 配置 。 


# kafka-configs.sh --zookeeper zoo1.example.com:2181/kafka-cluster 
--alter -- entity-type topics --entity-name my-topic 
--delete-config retention.ms 

Updated config for topic: "my-topic". 

# 


9.4 分 区 管理 


Kafka 工具 提供 了 两 个 脚本 用 于 管理 分 区 ， 一 个 用 于 重新 选举 首领 ， 另 一 个 用 于 将 分 区 分 
配给 broker。 结 合 使 用 这 两 个 工具 ， 就 可 以 实现 集群 流量 的 负载 均衡 。 


9.4.1 首选 的 首领 选举 


第 6 音 提 到 ， 使 用 多 个 分 区 副本 可 以 提升 可 靠 性 。 不 过 ， 只 有 其 中 的 一 个 副本 可 以 成 为 
分 区 首领 ， 而 且 只 有 首领 所 在 的 broker 可 以 进行 生产 和 消费 活动 。Kafka 将 副本 清单 里 
的 第 一 个 同步 副本 选 为 首领 ， 但 在 关闭 并 重启 broker 之 后 ， 并 不 会 自动 恢复 原先 首领 的 
身份 。 



































自动 首领 再 均衡 

broker 有 一 个 配置 可 以 用 于 启用 自动 首领 再 均衡 ， 不 过 到 目前 为 止 ， 并 不 建 
议 在 生产 环境 使 用 该 功能 。 自 动 均 衡 会 带 来 严重 的 性 能 问题 ， 在 大 型 的 集群 
里 ， 它 会 造成 客户 端 流 量 的 长 时 间 停 顿 。 





























通过 触发 首选 的 副本 选举 ， 可 以 让 broker 重新 获得 首领 。 当 该 事件 被 触发 时 ， 集 群 控制 器 
会 为 分 区 重新 选择 理想 的 首领 。 选 举 过 程 一 般 不 会 造成 负面 的 影响 ， 因 为 客户 端 可 以 自动 
跟踪 首领 的 变化 。 也 可 以 通过 kafka-preferred-replica-election.sh 工具 手动 触发 选举 。 


示例 : 在 一 个 包含 了 1 个 主题 和 8 个 分 区 的 集群 里 启动 首选 的 副本 选举 。 


# kafka-preferred-replica-election.sh --zookeeper 
zoo01.example.com:2181/kafka-cluster 

Successfully started preferred replica election for partitions 
Set([my-topic,5], [my-topic,0], [my-topic,7], [my-topic,4], 
[my-topic,6], [my-topic,2], [my-topic,3], [my-topic,1]) 

# 


因为 集群 包含 了 大 量 的 分 区 ， 首 选 的 副本 选举 有 可 能 无 法 正常 进行 。 在 进行 选举 时 ， 集 
群 的 元 数据 必须 被 写 到 Zookeeper 的 节点 上 ， 如 果 元 数据 超过 了 节点 允许 的 大 小 (默认 是 
1IMB)， 那 么 选举 就 会 失败 。 这 个 时 候 ， 需 要 将 分 区 清单 的 信息 写 到 一 个 JSON 文件 里 ， 
并 将 请 求 分 为 多 个 步骤 进行 。JSON 文件 的 格式 如 下 : 
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"partitions": [ 


{ 
"partition": 1， 
"topic": "foo" 
]， 
{ 
"partition": 2， 
"topic": "foobar" 
} 


} 
示例 : 通过 在 partitions.json 文件 里 指定 分 区 清单 来 启动 副本 选举 。 


# kafka-preferred-replica-election.sh --zookeeper 
zoo1.example.com:2181/kafka-cluster --path-to-json-file 
partitions.json 

Successfully started preferred replica election for partitions 
Set([my-topic,1], [my-topic,2], [my-topic,3]) 

# 





























9.4.2 ”修改 分 区 副本 

在 某 些 时 候 ， 可 能 需要 修改 分 区 的 副本 。 以 下 是 一 些 需 要 修改 分 区 副本 的 场景 。 

。 主题 分 区 在 整个 集群 里 的 不 均衡 分 布 造 成 了 集群 负载 的 不 均衡 。 

。 broker 离线 造成 分 区 不 同步 。 

。 新 加 入 的 broker 需要 从 集群 里 获得 负载 。 

可 以 使 用 kafka-reassign-partitions.sh 工具 来 修改 分 区 。 使 用 该 工具 需要 经 过 两 个 步骤 ; 


一 步 ， 根 据 broker 清单 和 主题 清单 生成 一 组 迁移 步骤 ， 第 二 步 ， 执 行 这 些 迁 移 步 骤 。 第 三 
个 步骤 是 可 选 的 ， 也 就 是 可 以 使 用 生成 的 迁移 步骤 验证 分 区 重 分 配 的 进度 和 完成 情况 


为 了 生成 迁移 步骤 ， 需 要 先 创 建 一 个 包含 了 主题 清单 的 JSON 文件 ， 文 件 格 式 如 下 (目前 
的 版 本 号 都 是 1) : 














{ 
"topics": [ 
{ 
"topic": "foo" 
]， 
四 
"topic": "foo1" 
} 
]3 
"version": 1 
} 


示例 : 为 topics.json 文件 里 的 主题 生成 迁移 步 又， 以便 将 这 些 主题 迁移 到 broker 0 和 
broker 1 上 。 
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broker 的 ID 以 有 逗号 分 隔 ， 并 作为 参数 提供 给 命令 行 工 具 。 这 个 工具 会 在 标准 控制 台 上 输出 
两 个 JSON 对 象 ， 分 别 描述 了 当前 的 分 区 分 配 情况 以 及 建议 的 分 区 分 配方 案 。 


# kafka-reassign-partitions.sh --zookeeper 
zoo1.example.com:2181/kafka-cluster 

--generate --topics-to-move-json-file topics.json --broker-list 0,1 
Current partition replica assignment 


"version":1,"partitions":[{"topic":"my-topic","partition":5,"replicas":[0,1]}, 
{"topic":"my-topic","partition":10,"replicas":[1,0]},{"topic":"my- 
topic","partition":1,"replicas":[0,1]},{"topic":"my-topic","partition":4,"repli 
cas":[1,0]},{"topic":"my-topic","partition":7,"replicas":[0,1]},{"topic":"my- 
topic","partition":6,"replicas":[1,0]},{"topic":"my-topic","partition": 
3,"replicas":[0,1]},{"topic":"my-topic","partition":15,"replicas":[0,1]}, 
{"topic":"my-topic","partition":0,"replicas":[1,0]},{"topic":"my- 
topic","partition":11,"replicas":[0,1]},{"topic":"my-topic","partition":8,"repli 
cas":[1,0]},{"topic":"my-topic","partition":12,"replicas":[1,0]},{"topic":"my- 
topic","partition":2,"replicas":[1,0]},{"topic":"my-topic","partition": 
13,"replicas":[0,1]},{"topic":"my-topic","partition":14,"replicas":[1,0]}, 


{"topic":"my-topic", "partition":9,"replicas":[0,1]}]} 
Proposed partition reassignment configuration 


{"version":1,"partitions":[{"topic":"my-topic","partition":5,"replicas":[0,1]}, 
{"topic":"my-topic","partition":10,"replicas":[1,0]},{"topic":"my- 
topic","partition":1,"replicas":[0,1]},{"topic":"my-topic","partition":4,"repli 
cas":[1,0]},{"topic":"my-topic","partition":7,"replicas":[0,1]},{"topic":"my- 
topic","partition":6,"replicas":[1,0]},{"topic":"my-topic", "partition": 
15,"replicas":[0,1]},{"topic":"my-topic","partition":0,"replicas":[1,0]}, 
{"topic":"my-topic","partition":3,"replicas":[0,1]},{"topic":"my- 
topic","partition":11,"replicas":[0,1]},{"topic":"my-topic","partition":8,"repli 
cas":[1,0]},{"topic":"my-topic","partition":12,"replicas":[1,0]},{"topic":"my- 
topic","partition":13,"replicas":[0,1]},{"topic":"my-topic","partition": 
2,"replicas":[1,0]},{"topic":"my-topic","partition":14,"replicas":[1,0]}, 


{"topic":"my-topic","partition":9,"replicas":[0,1]}]} 
# 














这 些 JSON 


对 象 的 格式 如 下 : {"partitions": [{"topic": "my-topic", "partition": 0, "replicas": 
[1,2] }]，"version" :1}。 


可 以 把 第 一 个 JSON 对 象 保存 起 来 ， 以 便 在 必要 的 时 候 进 行 回 深 。 第 二 个 JSON 对 象 应 该 
被 保存 到 另 一 个 文件 里 ， 作 为 kafka-reassign-partitions.sh 工具 的 输入 来 执行 第 二 个 步骤 。 


示例 : 使 用 reassign.json 来 执行 建议 的 分 区 分 配方 案 。 











# kafka-reassign-partitions.sh --zookeeper 
zoo1.example.com:2181/kafka-cluster --execute 
--reassignment-json-file reassign.json 
Current partition replica assignment 


"version":1,"partitions":[{"topic":"my-topic","partition":5,"replicas":[0,1]}, 
{"topic":"my-topic","partition":10,"replicas":[1,0]},{"topic":"my- 
topic","partition":1,"replicas":[0,1]},{"topic":"my-topic","partition":4,"repli 
cas":[1,0]},{"topic":"my-topic","partition":7,"replicas":[0,1]},{"topic":"my- 
topic","partition":6,"replicas":[1,0]},{"topic":"my-topic", "partition": 


3,"replicas":[0,1]},{"topic":"my-topic","partition":15,"replicas":[0,1]}, 
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{"topic":"my-topic","partition":0,"replicas":[1,0]},{"topic":"my- 


topic","partition":11,"replicas":[0,1]},{"topic":"my-topic","partition":8,"repli 


cas":[1,0]},{"topic":"my-topic","partition":12,"replicas":[1,0]},{"topic":"my- 
topic","partition":2,"replicas":[1,0]},{"topic":"my-topic", "partition": 
13,"replicas":[0,1]},{"topic":"my-topic","partition":14,"replicas":[1,0]}, 


{"topic":"my-topic","partition":9,"replicas":[0,1]}]} 


Save this to use as the --reassignment-json-file option during 
rollback 
Successfully started reassignment of partitions {"version":1,"partitions": 


[{"topic":"my-topic","partition":5,"replicas":[0,1]},{"topic":"my- 
topic","partition":0,"replicas":[1,0]},{"topic":"my-topic","partition":7,"repli 
cas":[0,1]},{"topic":"my-topic","partition":13,"replicas":[0,1]},{"topic":"my- 
topic","partition":4,"replicas":[1,0]},{"topic":"my-topic", "partition": 
12,"replicas":[1,0]},{"topic":"my-topic","partition":6,"replicas":[1,0]}, 
{"topic":"my-topic","partition":11,"replicas":[0,1]},{"topic":"my- 


topic","partition":10,"replicas":[1,0]},{"topic":"my-topic","partition":9,"repli 


cas":[0,1]},{"topic":"my-topic","partition":2,"replicas":[1,0]},{"topic":"my- 
topic","partition":14,"replicas":[1,0]},{"topic":"my-topic","partition": 
3,"replicas":[0,1]},{"topic":"my-topic","partition":1,"replicas":[0,1]}, 
{"topic":"my-topic","partition":15,"replicas":[0,1]},{"topic":"my-topic", 
"partition":8,"replicas":[1,0]}]} 


# 








刘 





该 命令 会 将 指定 分 区 的 副本 重新 分 配 到 新 的 broker 上 。 集 群 控制 器 通过 为 每 个 分 区 添加 
副本 实现 重新 分 配 (增加 复制 系数 )。 新 的 副本 将 从 分 区 的 首领 那里 复制 所 有 数据 。 


根 


据 分 区 大 小 的 不 同 ， 复 制 过 程 可 能 需要 花 一 些 时 间 ， 因 为 数据 是 通过 网 络 复制 到 新 副本 上 





的 。 在 复制 完成 之 后 ， 控 制 器 将 旧 副 本 从 副本 清单 里 移 除 (恢复 到 原先 的 复制 系数 )。 
为 重新 分 配 副 本 进行 网 络 优化 


如 果 要 从 单个 broker 上 移 除 多 个 分 区 ， 比 如 将 broker 移出 集群 ， 那 么 在 重新 
分 配 副本 之 前 最 好 先 关 闭 或 者 重启 broker。 这 样 ， 这 个 broker 就 不 再 是 任何 
一 个 分 区 的 首领 ， 它 的 分 区 就 可 以 被 分 配给 集群 里 的 其 他 broker (只 要 没有 
启用 自动 首领 选举 )。 这 可 以 显著 提升 重 分 配 的 性 能 ， 并 减少 对 集群 的 影响 ， 
因为 复制 流量 将 会 被 分 发 给 多 个 broker。 
























































在 重 分 配 进行 过 程 中 或 者 完成 之 后 ， 可 以 使 用 kafka-reassign-partitions.sh 工具 验证 重 分 配 


的 状态 。 它 可 以 显示 重 分 配 的 进度 、 已 经 完成 重 分 配 的 分 区 以 及 错误 信息 (如 果 有 的 话 )。 


为 了 做 到 这 一 点 ， 需 要 在 执行 过 程 中 使 用 JSON 对 象 文件 。 
示例 : 验证 reassign.json 文件 里 指定 的 分 区 重 分 配 情况 。 


# kafka-reassign-partitions.sh --zookeeper 
zoo1.example.com:2181/kafka-cluster --verify 
--reassignment-json-file reassign.json 

Status of partition reassignment: 

Reassignment of partition [my-topic,5] completed successfully 
Reassignment of partition [my-topic,0] completed successfully 
Reassignment of partition [my-topic,7] completed successfully 
Reassignment of partition [my-topic,13] completed successfully 








管理 Kafka | 


149 


] completed successfully 
Reassignment of partition [my-topic,12] completed successfully 
Reassignment of partition [my-topic,6] completed successfully 
Reassignment of partition [my-topic,11] completed successfully 
Reassignment of partition [my-topic,10] completed successfully 
Reassignment of partition [my-topic,9] completed successfully 
Reassignment of partition [my-topic,2] completed successfully 
Reassignment of partition [my-topic,14] completed successfully 
Reassignment of partition [my-topic,3] completed successfully 
Reassignment of partition [my-topic,1] completed successfully 
Reassignment of partition [my-topic,15] completed successfully 
Reassignment of partition [my-topic,8] completed successfully 
# 


Reassignment of partition [my-topic,4] 





分 批 重 分 配 

分 区 重 分 配对 集群 的 性 能 有 很 大 影响 ， 因 为 它 会 引起 内 存 页 缓存 发 生变 化 ， 
并 占用 额外 的 网 络 和 磁盘 资源 。 将 重 分 配 过 程 拆 分 成 多 个 小 步骤 可 以 将 这 种 
影响 降 到 最 低 。 











9.4.3 修改 复制 系数 


分 区 重 分 配 工具 提供 了 一 些 特性 ， 用 于 改变 分 区 的 复制 系数 ， 这 些 特 性 并 没有 在 文档 里 
说 明 。 如 果 在 创建 分 区 时 指定 了 错误 的 复制 系数 (比如 在 创建 主题 时 没有 足够 多 可 用 的 
broker) ， 那 么 就 有 必要 修改 它们 。 这 可 以 通过 创建 一 个 JSON 对 象 来 完成 ， 该 对 象 使 用 分 
区 重新 分 配 的 执行 步骤 中 使 用 的 格式 ， 显 式 指定 分 区 所 需 的 副本 数量 。 集 群 将 完成 重 分 配 
过 程 ， 并 使 用 新 的 复制 系数 。 


例如 ， 假 设 主题 my-topic 有 一 个 分 区 ， 该 分 区 的 复制 系数 为 1。 
































"partitions": [ 
{ 
"topic": "my-topic", 
"partition": 0， 
"replicas": [ 
1 
] 
} 
]， 
"version": 1 
} 





在 分 区 重新 分 配 的 执行 步骤 中 使 用 以 下 JSON 可 以 将 复制 系数 改 为 2。 





"partitions": [ 
{ 
"partition": 0， 
"replicas": [ 
1， 
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]， 


"topic": "my-topic" 


]， 


"version": 1 


} 


也 可 以 通过 类 似 的 方式 减 小 分 区 的 复制 系数 。 
9.4.4” 转 储 日 志 片 段 


要 查看 某 个 特定 消息 的 内 容 ， 比 如 一 个 消费 者 无 法 处 理 的 “毒药 ”消息 ， 可 以 使 用 工 
有 具 来 解码 分 区 的 日 志 片 段 。 该 工具 可 以 让 你 在 不 读 取消 息 的 情况 下 查看 消息 的 内 容 。 它 接受 


如 果 需 


一 个 以 逗号 分 隔 的 日 志 片段 文人 
示例 : 


示例 : 


这 个 工具 也 可 以 用 于 验证 日 志 片 段 的 索引 文件 。 














解码 日 志 片 段 00000000000052368601.lo0g， 显 示 消 息 的 概要 信息 。 


# kafka-run-class.sh kafka.tools.DumpLogSegments --files 
00000000000052368601.Log 

Dumping 00000000000052368601.1og 

Starting offset: 52368601 

offset: 52368601 position: 0 NoTimestampType: -1 isvalid:true 


payloadsize: 661 magic: 0 compresscodec: GZIPCompressionCodec crc: 


1194341321 
offset: 52368603 position: 687 NoTimestampType: -1 isvalid: true 


payloadsize:895 magic: 0 compresscodec: GZIPCompressionCodec crc: 


278946641 
offset: 52368604 position: 1608 NoTimestampType: -1 isvalid: true 


payloadsize:665 magic: 0 compresscodec: GZIPCompressionCodec crc: 


3767466431 
offset: 52368606 position: 2299 NoTimestampType: -1 isvalid: true 


payloadsize:932 magic: 0 compresscodec: GZIPCompressionCodec crc: 


2444301359 


解码 日 志 片 段 00000000000052368601.lo0g， 显 示 消 息 的 数据 内 容 。 


# kafka-run-class.sh kafka.tools.DumpLogSegments --files 
00000000000052368601.Log --print-data-Log 
offset: 52368601 position: 0 NoTimestampType: -1 isvalid: true 


payloadsize: 661 magic: 0 compresscodec: GZIPCompressionCodec crc: 


1194341321 payload: test message 1 
offset: 52368603 position: 687 NoTimestampType: -1 isvalid: true 


payloadsize:895 magic: 0 compresscodec: GZIPCompressionCodec crc: 


278946641 payload: test message 2 
offset: 52368604 position: 1608 NoTimestampType: -1 isvalid: true 


payloadsize:665 magic: 0 compresscodec: GZIPCompressionCodec crc: 


3767466431 payload: test message 3 
offset: 52368606 position: 2299 NoTimestampType: -1 isvalid: true 


payloadsize:932 magic: 0 compresscodec: GZIPCompressionCodec crc: 


2444301359 payload: test message 4 











F 清 单 作为 参数 ， 并 打印 出 每 个 消息 的 概要 信息 和 数据 内 容 。 


索引 用 于 在 日 志 片 段 里 查找 消息 ， 如 果 索 
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引文 件 损坏 ,会 导致 消费 者 在 读 取消 息 时 出 现 错误 。broker 在 不 正常 启动 (比如 之 前 没有 
正常 关闭 ) 时 会 自动 执行 这 个 验证 过 程 ， 不 过 也 可 以 手动 执行 它 。 有 两 个 参数 可 以 用 于 指 
定 不 同 程度 的 验证 ，--index-sanity-check 将 会 检查 无 用 的 索引 ， 而 --verify-index-only 
将 会 检查 索引 的 匹配 度 ， 但 不 会 打印 出 所 有 的 索引 。 


示例 : 验证 日 志 片 段 00000000000052368601.log 索引 文件 的 正确 性 。 











# kafka-run-class.sh kafka.tools.DumpLogSegments --files 
00000000000052368601.index,00000000000052368601.Log 
--index-sanity-check 

Dumping 00000000000052368601.index 

00000000000052368601.index passed sanity check . 

Dumping 00000000000052368601.1og 

Starting offset: 52368601 

offset: 52368601 position: 0 NoTimestampType: -1 isvalid: true 
payloadsize: 661 magic: 0 compresscodec: GZIPCompressionCodec crc: 
1194341321 

offset: 52368603 position: 687 NoTimestampType: -1 isvalid: true 
payloadsize:895 magic: 0 compresscodec: GZIPCompressionCodec crc: 
278946641 

offset: 52368604 position: 1608 NoTimestampType: -1 isvalid: true 
payloadsize:665 magic: 0 compresscodec: GZIPCompressionCodec crc: 
3767466431 


9.4.5 副本 验证 

分 区 复制 的 工作 原理 与 消费 者 客户 端 类 似 : 跟随 者 broker 定期 将 上 一 个 偏 移 量 到 当前 偏 移 
量 之 间 的 数据 复制 到 磁盘 上 。 如 果 复 制 停止 并 重启 ， 它 会 从 上 一 个 检查 点 继续 复制 。 如 果 
之 前 复制 的 日 志 片 段 被 删除 ， 跟 随 者 不 会 做 任何 补偿 。 

可 以 使 用 kafka-replica-verification.sh 工具 来 验证 集群 分 区 副本 的 一 致 性 。 它 会 从 指定 分 区 
的 副本 上 获取 消息 ， 并 检查 所 有 副本 是 否 具 有 相同 的 消息 。 我 们 必须 使 用 正则 表达 式 将 待 
验证 主题 的 名 字 传 给 它 。 如 果 不 提供 这 个 参数 ， 它 会 验证 所 有 的 主题 。 除 此 之 外 ， 还 需要 
显 式 地 提供 broker 的 地 址 清单 。 


副本 验证 对 集群 的 影响 


副本 验证 工具 也 会 对 集群 造成 影响 ， 因 为 它 需 要 读 取 所 有 的 消息 。 另 外 ， 它 
的 读 取 过 程 是 并 行进 行 的 ， 所 以 使 用 的 时 候 要 小 心 。 















































示例 : 对 broker 1 和 broker 2 上 以 my- 开头 的 主题 副本 进行 验证 。 


# kafka-replica-verification.sh --broker-list 
kafkal.example.com:9092,kafka2.example.com:9092 --topic-white-list 'my-.*" 
2016-11-23 18:42:08,838: verification process is started. 

2016-11-23 18:42:38,789: max lag is 0 for partition [my-topic,7] 

at offset 53827844 among 10 partitions 

2016-11-23 18:43:08,790: max lag is 0 for partition [my-topic,7] 

at offset 53827878 among 10 partitions 





9.5 消费 和 生产 


在 使 用 Kafka 时 ， 有 时候 为 了 验证 应 用 程序 ， 需 要 手动 读 取 消息 或 手动 生成 消息 。 这 个 时 
候 可 以 借助 kafka-console-consumer.sh 和 kafka-console-producer.sh 这 两 个 工具 ， 它 们 包装 
了 Java 客户 端 ， 让 用 户 不 需要 编写 整个 应 用 程序 就 可 以 与 Kafka 主题 发 生 交互 。 


将 结果 输出 到 其 他 应 用 程序 


有 时候， 我 们 可 能 需要 编写 应 用 程序 将 控制 台 消 费 者 和 控制 台 生 产 者 包装 起 
来 ， 用 它 读 取消 息 ， 并 把 消息 传 给 另 一 个 应 用 程序 去 处 理 。 这 种 应 用 程序 太 
过 脆弱 ， 应 该 尽量 避免 编写 这 类 应 用 程序 。 我 们 无 法 保证 控制 台 消 费 者 不 丢 
失 数据 ， 也 无 法 使 用 控制 台 生 产 者 的 所 有 特性 ， 而 且 它 发 送 数据 的 方式 也 很 
奇怪 。 最 好 的 方式 是 直接 使 用 Java 客户 端 ， 或 者 使 用 其 他 基于 Kafka 协议 实 
现 的 第 三 方 客户 端 ( 可 能 是 使 用 其 他 语言 开发 的 )。 









































9.5.1 控制 台 消费 者 
kafka-console-consumer.sh 工具 提供 了 一 种 从 一 个 或 多 个 主题 上 读 取 消息 的 方式 。 消 息 被 打 
印 在 标准 输出 上 ， 消 息 之 间 以 空 行 分 隔 。 上 默认 情况 下 ， 它 会 打印 没有 经 过 格式 化 的 原始 消 
息 字 节 (使 用 DefaultFormatter)。 它 有 很 多 可 选 参 数 ， 其 中 有 一 些 基 本 的 参数 是 必 选 的 。 
检查 工具 版 本 

使 用 与 Kafka broker 相同 版 本 的 消费 者 客户 端 ， 这 一 点 是 非常 重要 的 。 旧 版 
本 的 控制 台 消 费 者 与 Zookeeper 之 间 不 恰当 的 交互 行为 可 能 会 影响 到 集群 。 
































第 一 步 要 指定 是 否 使 用 新 版 本 的 消费 者 ， 并 指定 Kafka 集群 的 地 址 。 如 果 使 用 的 是 旧版 本 的 
消费 者 ， 只 需要 提供 - -zookeeper 参数 ， 后 面 跟 上 Kafka 集群 的 连接 字符 串 。 对 于 上 面 的 例子 
来 说 ， 参 数 可 能 是 - -zookeeper zoo1.example.com:2181/kafka-cluster。 如 果 使 用 了 新 版 本 的 消 
费 者 ， 必 须 使 用 --new-consumer 和 --broker-list，--broker-list 后 面 需要 跟 上 以 喜 号 相隔 的 
broker 地 址 列表 ， 比 如 - -broker-List kafka1.exampLe.com:9092 ,kafka2.exampLe.com:9092。 


下 一 步 要 指定 待 读 取 的 主题 。 这 里 有 3 个 可 用 参数 ， 分 别 是 --topic、--whitelist 
和 --blacklist。 此 处 允许 只 指定 一 个 参数 。--topic 用 于 指定 单个 待 读 取 的 主题 ， 
--whitelist 和 --blacklist 后 面 跟着 一 个 正则 表达 式 (在 命令 行 里 可 能 需要 转 义 )。 与 白 
名 单 正则 表达 式 匹 配 的 主题 将 会 被 读 取 ， 与 黑 名 单 正则 表达 式 匹 配 的 主题 不 会 被 读 取 。 


示例 : 使 用 旧版 消费 者 读 取 单个 主题 my-topic。 


# kafka-console-consumer.sh --zookeeper 
zoo1.example.com:2181/kafka-cluster -- topic my-topic 
sample message 1 

sample message 2 

^CProcessed a total of 2 messages 

# 
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除了 基本 的 命令 行 参数 外 ， 也 可 以 把 消费 者 的 其 他 配置 参数 传 给 控制 台 消 费 者 。 可 以 通过 
两 种 方式 来 达到 这 个 目的 ， 这 取决 于 需要 传递 的 参数 个 数 以 及 个 人 喜好 。 第 一 种 方式 是 将 
配置 参数 写 在 一 个 文件 里 ， 然 后 通过 - -consumer.confg CONfiGfiLE 指定 配置 文件 ， 其 中 
CONFIGFILE 就 是 配置 文件 的 全 路 径 。 另 一 种 方式 是 直接 在 命令 行 以 --consumer-property 
KEY=VALUE 的 格式 传递 一 个 或 多 个 参数 ， 其 中 KEY 指 参数 的 名 字 ，VALUE 指 参数 的 值 。 
这 种 方式 在 设置 消费 者 属性 时 会 很 有 用 ， 比 如 设置 群 组 的 ID。 


容易 混淆 的 命令 行 参数 


控制 台 消 费 者 和 控制 台 生 产 者 有 一 个 共同 的 参数 - -property， 千 万 不 要 将 这 
个 参数 与 --consumer-property 和 --producer-property 混淆 。--property 参 
数 用 于 向 消息 格式 化 器 传递 配置 信息 ， 而 不 是 给 客户 端 本 身 传递 配置 信息 。 























控制 台 消 费 者 的 其 他 常用 配置 如 下 。 
--formatter CLASSNAME 

间 定 消息 格式 化 器 的 类 名 ， 用 于 解码 消息 ， 它 的 默认 值 是 kafka.tools.DefaultFormatter。 
--from-beginning 

外 定 从 最 旧 的 偏 移 量 开始 读 取 数据 ， 否 则 就 从 最 新 的 偏 移 量 开始 读 取 。 
--max-messages NUM 

上 定 在 退出 之 前 最 多 读 取 NUM 个 消息 。 





--partition NUM 
指定 只 读 取 ID 为 NUM 的 分 区 (需要 新 版 本 的 消费 者 )。 
1. 消息 格式 化 器 的 选项 
除了 默认 的 消息 格式 化 器 之 外 ， 还 有 其 他 3 种 可 用 的 格式 化 器 。 
kafka.tools.LoggingMessageFormatter 
将 消息 输出 到 日 志 ， 而 不 是 输出 到 标准 的 输出 设备 。 日 志 级 别 为 INFO， 并 且 包 含 了 时 
间 戳 、 键 和 值 。 
kafka.tools.ChecksumMessageFormatter 
只 打印 消息 的 校 验 和 。 
kafka. tools.NoOpMessageFormatter 
读 取消 息 但 不 打印 消息 。 
kafka.tools.DefaultMessageFormatter 有 一 些 非 常 有 用 的 配置 选项 ， 这 些 选 项 可 以 通过 
--property 命令 行 参 数 传 给 它 。 

















print.timestamp 


如 果 被 设 为 true， 就 会 打印 每 个 消息 的 时 间 截 ，。 





print.key 

如 果 被 设 为 true， 除 了 打印 消息 的 值 之 外 ， 还 会 打印 消息 的 键 。 
key .separator 

指定 打印 消息 的 键 和 消息 的 值 所 使 用 的 分 隔 符 。 
Line.separator 

指定 消息 之 间 的 分 隔 符 。 
key.deserializer 

指定 打印 消息 的 键 所 使 用 的 反 序 列 化 器 类 名 。 


value.deserializer 


指定 打印 消息 的 值 所 使 用 的 反 序 列 化 器 类 名 。 
反 序 列 化 类 必须 实现 org.apache.kafka.common.serialization.Deserializer 接口 ， 控 制 
台 消 费 者 会 调用 它们 的 tostring() 方法 获取 输出 结果 。 一 般 来 说 ， 在 使 用 kafka_console_ 
consumer.sh 工具 之 前 ， 需 要 通过 环境 变量 CLASSPATH 将 这 些 实现 类 添加 到 类 路 径 里 。 
2. 读 取 偏 移 量 主题 
有 时候 ， 我 们 需要 知道 提交 的 消费 者 群 组 偏 移 量 是 多 少 ， 比 如 某 个 特定 的 群 组 是 否 在 提交 
偏 移 量 ， 或 者 偏 移 量 提 交 的 频 度 。 这 个 可 以 通过 让 控制 台 消 费 者 读 取 一 个 特殊 的 内 部 主题 
_ consumer_offsets 来 实现 。 所 有 消费 者 的 偏 移 量 都 以 消息 的 形式 写 到 这 个 主题 上 。 为 了 
解码 这 个 主题 的 消息 ， 需 要 使 用 kafka.coordinator .GroupMetadataManagerSOffsetsMessage 
Formatter 这 个 格式 化 器 。 
示例 :从 偏 移 量 主题 读 取 一 个 消息 。 


# kafka-console-consumer .sh --zookeeper 








zoo1.example.com:2181/kafka-cluster -- topic __consumer_offsets 
--formatter 'kafka.coordinator.GroupMetadataManager$0ffsetsMessage 
Formatter' --max-messages 1 


[my-group-name,my-topic,0]::[0ffsetMetadata[481690879,NO_METADATA] 
,CommitTime 1479708539051,ExpirationTime 1480313339051] 

Processed a total of 1 messages 

# 


9.5.2 ”控制 台 生 产 者 


与 控制 台 消 费 者 类 似 ，kafka-console-producer.sh 工具 可 以 用 于 向 Kafka 主题 写 人 消息 。 默 
认 情 况 下 ,该 工具 将 命令 行 输 入 的 每 一 行 视 为 一 个 消息 ， 消 息 的 键 和 值 以 Tab 字符 分 隔 
(如 果 没 有 出 现 Tab 字符 ， 那 么 键 就 是 null) 。 


改变 命令 行 的 读 取 行为 


如 果 有 必要 ， 可 以 使 用 自 定义 类 来 读 取 命令 行 输入 。 自 定义 类 必须 继承 
kafka.common.MessageReader 类 ， 并 负责 创建 ProducerRecord 对 象 。 然 后 在 
命令 行 的 --Line-reader 参数 后 面 指定 这 个 类 ， 并 确保 包含 这 个 类 的 JAR 包 
已 经 加 入 到 类 路 径 里 。 
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控制 台 生 产 者 有 两 个 参数 是 必须 指定 的 : - -broker-List 参数 指定 了 一 个 或 多 个 broker， 它 
们 以 逗号 分 隔 ， 格 式 为 hostname:port， 男 一 个 参数 --topic 指定 了 生成 消息 的 目标 主题 。 
在 生成 完 消息 之 后 ， 需 要 发 送 一 个 EOF 字符 来 关闭 客户 端 。 
示例 : 向 主题 my-topic 生成 两 个 消息 。 

# kafka-console-producer .sh --broker-list 

kafkal.example.com:9092,kafka2.example.com:9092 --topic my-topic 

sample message 1 

sample message 2 

AD 

# 
与 控制 台 消 费 者 一 样 ， 控 制 台 生 产 者 可 以 接受 普通 生产 者 的 配置 参数 。 这 也 可 以 通过 两 种 
方式 来 实现 ， 具 体 用 哪 一 种 取决 于 你 想 要 传递 的 参数 个 数 和 个 人 喜好 。 第 一 种 方式 是 通过 
--producer .config CONFIGFILE 指定 消费 者 配置 文件 ， 其 中 CONFIGFILE 是 配置 文件 的 全 
路 径 。 另 一 种 方式 是 直接 在 命令 行 以 - -producer-property KEY=VALUE 的 格式 传递 一 个 或 多 
个 参数 ， 其 中 KEY 指 参数 的 名 字 ，VALUE 指 参数 的 值 。 这 种 方式 在 设置 生产 者 属性 时 会 
很 有 用 ， 比 如 消息 批 次 的 相关 配置 (如 linger.ms 或 batch.size)。 


控制 台 生产 者 有 很 多 命令 行 参 数 可 用 于 调整 它 的 行为 。 
--key-serializer CLASSNAME 
指定 销 息 键 的 编码 器 类 名 ， 默 认 是 kafka.serializer.DefaultEncoder。 

















--value-serializer CLASSNAME 
指定 销 息 值 的 编码 器 类 名 ， 默 认 是 kafka.serializer.DefaultEncoder。 
--Compression-codec STRING 
指定 生成 消息 所 使 用 的 压缩 类 型 ， 可 以 是 none、gzip、snappy 或 lz4， 默 认 值 是 gzip。 
--sync 
站 定 以 同步 的 方式 生成 消息 ， 也 就 是 说 ， 在 发 送 下 一 个 消息 之 前 会 等 待 当前 消息 得 到 
确认 。 


创建 自 定义 序列 化 器 


自 定义 序列 化 器 必须 继承 kafka.serializer.Encode 类 ， 可 以 用 于 做 一 些 转换 
操作 ， 比 如 将 JSON 格式 的 字符 串 转 成 其 他 格式 ， 如 Avro， 让 这 些 消息 可 以 
被 保存 到 主题 上 。 

















文本 行 读 取 器 的 配置 参数 
kafka.tools.LineMessageReader 类 负责 读 取 标准 输入 ， 并 创建 消息 记录 。 它 也 有 一 些 非常 
有 用 的 配置 参数 ， 可 以 通过 - -property 命令 行 参 数 把 这 些 配置 参数 传 给 控制 台 生产 者 。 
ignore.error 
如 果 被 设 为 false， 那 么 在 parse.key 被 设 为 true 或 者 标准 输入 里 没有 包含 键 的 分 隔 符 
时 就 会 抛 出 异常 ， 默 认为 true。 














parse.key 

如 果 被 设 为 fatse， 那 么 生成 消息 的 键 总 是 nutl， 默 认为 true。 
key.separator 

指定 消息 键 和 消息 值 之 间 的 分 隔 符 ， 默 认 是 Tab 字符 。 
在 生成 消息 时 ，LineMessageReader 使 用 第 一 个 出 现 的 key.separator 作为 分 隔 符 来 拆 分 输 
入 。 如 果 在 分 隔 符 之 后 没有 其 他 字符 ， 那 么 消息 的 值 为 空 。 如 果 输 入 里 没有 包含 分 隔 符 ， 
或 者 parse.key 被 设 为 false， 那 么 消息 的 键 就 是 null。 


9.6 ”客户 端 ACL 


命令 行 工 具 kafka-acls.sh 可 以 用 于 处 理 与 客户 端 访问 控制 相关 的 问题 ， 它 的 文档 可 以 在 
Apache Kafka 官方 网 站 上 找到 。 


9.7 不 安全 的 操作 


有 一 些 管 理 操作 虽然 在 技术 上 是 可 行 的 ， 但 如 果 不 是 非常 有 必要 ， 就 不 应 该 尝试 那么 做 。 
比如 ， 你 正在 诊断 一 个 问题 ， 但 已 经 没有 其 他 可 行 的 办 法 ， 或 者 发 现 了 一 个 bug， 需 要 一 
个 临时 解决 方案 。 这 些 操作 一 般 在 文档 里 不 会 有 相关 的 说 明 ， 而 且 未 经 证 实 ， 有 可 能 会 给 
应 用 程序 带 来 风险 。 

这 里 会 列举 一 些 常见 的 操作 ， 在 紧急 情况 下 可 以 使 用 它们 。 不 过 ， 一般 情 况 下 不 建议 执行 
这 些 操作 ， 而 且 在 执行 之 前 要 慎重 考虑 。 


此 处 有 危险 
本 节 介 绍 的 操作 将 涉及 保存 在 Zookeeper 上 的 元 数据 。 除 了 这 里 提 到 的 内 容 


以 外 ， 不 要 直接 修改 Zookeeper 的 其 他 任何 信息 ， 一 定 要 小 心 谨慎 ， 因 为 这 
些 操 作 都 是 很 危险 的 。 


9.7.1 移动 集群 控制 器 

每 个 Kafka 集群 都 有 一 个 控制 器 ， 它 是 运行 在 集群 某 个 broker 上 的 一 个 线程 。 控 制 绒 负责 
看 管 集 群 的 操作 ， 有 时 候 需 要 将 控制 器 从 一 个 broker 迁移 到 另 一 个 broker 上 。 例 如 ， 因 为 
出 现 了 某 些 异常 ， 控 制 器 虽然 还 在 运行 ， 但 已 无 法 提供 正常 的 功能 。 这 时 候 可 以 迁移 控制 
器 ， 但 毕竟 这 也 不 是 一 般 性 的 操作 ， 所 以 不 应 该 经 常 迁 移 控制 器 。 

当前 控制 器 将 自己 注册 到 Zookeeper 的 一 个 节点 上 ， 这 个 节点 处 于 集群 路 径 的 最 顶层 ， 
名 字 叫 作 /controLLer。 手 动 删 除 这 个 节点 会 释放 当前 控制 器 ， 集 群 将 会 进行 新 的 控制 


9.7.2 ”取消 分 区 重 分 配 
分 区 重 分 配 的 一 般 流 程 如 下 。 
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(1) 发 起 重 分 配 请 求 (创建 Zookeeper 节点 )。 

(2) 集群 控制 器 将 分 区 添加 到 broker 上 。 

(3) 新 的 broker 开始 复制 分 区 ， 直 到 副本 达到 同步 状态 。 

(4) 集群 控制 器 从 分 区 副本 清单 里 移 除 旧 的 broker。 

因为 分 区 重 分 配 是 并 行进 行 的 ， 所 以 一 般 情况 下 没有 理由 取消 一 个 正在 进行 中 的 重 分 配 
任务 。 不 过 有 一 个 例外 的 情况 ， 比 如 在 重 分 配 进行 到 一 半 时 ，broker 发 生 了 故障 并 且 无 
法 立即 重启 ， 这 会 导致 重 分 配 过 程 无 法 结束 ， 进 而 妨碍 其 他 重 分 配 任 务 的 进行 (比如 将 
故障 broker 的 分 区 分 配给 其 他 broker)。 如 果 发 生 了 这 种 情况 ， 可 以 让 集群 忽略 这 个 重 分 
配 任务 。 

移 除 一 个 进行 中 的 分 区 重 分 配 任务 的 步骤 如 下 。 

(1) 从 Zookeeper 上 删除 /admin/reassign_partitions 节点 。 

(2) 重新 选举 控制 器 (参见 9.7.1 节 )。 


检查 复制 系数 


在 取消 进行 中 的 分 区 重 分 配 任务 时 ， 对 于 任何 一 个 未 完成 重 分 配 的 分 区 来 
说 ， 旧 的 broker 都 不 会 从 副本 清单 里 移 除 。 也 就 是 说 ， 有 些 分 区 的 复制 系数 
会 比 正常 的 大 。 如 果 主 题 的 分 区 包含 不 一 致 的 复制 系数 ， 那 么 broker 是 不 允 
许 对 其 进行 操作 的 【比如 增加 分 区 )。 所 以 建议 检查 分 区 是 否 仍然 可 用 ， 并 
确保 分 区 的 复制 系数 是 正确 的 。 






















































































9.7.3” 移 除 待 删除 的 主题 

在 使 用 命令 行 工具 删除 主题 时 ， 命 令 行 工具 会 在 Zookeeper 上 创建 一 个 节点 作为 删除 主题 
的 请 求 。 在 正常 情况 下 ， 集 群 会 立即 执行 这 个 请 求 。 不 过 ， 命 令 行 工 具 并 不 知道 集群 是 否 
启用 了 主题 删除 功能 。 因 此 ， 如 果 集 群 没 有 启用 主题 删除 功能 ， 那 么 命令 行 工 具 发 起 的 请 
求 会 一 直 被 挂 起 。 不 过 这 种 挂 起 请 求 是 可 以 被 移 除 的 。 

主题 的 删除 是 通过 在 /admin/delete_topic 节点 下 创建 一 个 以 待 删除 主题 名 字 命名 的 子 节 
点 来 实现 的 。 所 以 ， 删 除了 这 些 节 点 (不 过 不 要 删除 /admin/delete_topic 这 个 父 节 点 )， 
也 就 移 除 了 被 挂 起 的 请 求 。 


9.7.4 手动 删除 主题 

如 果 集 群 禁用 了 主题 删除 功能 ， 或 者 需要 通过 非 正 式 的 途径 删除 某 些 主题 ， 那 么 可 以 进行 
手动 删除 。 这 要 求 在 线 下 关闭 集群 里 所 有 的 broker。 

先 关 闭 broker 

在 集群 还 在 运行 的 时 候 修改 Zookeeper 里 的 元 数据 是 很 危险 的 ， 这 会 造成 集 
群 不 稳定 。 所 以 ， 不 要 在 集群 还 在 运行 的 时 候 删 除 或 修改 Zookeeper 里 的 主 
题 元 数据 。 
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从 集群 里 手动 删除 主题 的 过 程 如 下 。 

() 关闭 集群 里 所 有 的 broker。 

(2) 删除 Zookeeper 路 径 /brokers/topics/TOPICNAME， 注 意 要 先 删 除 节点 下 的 子 节 点 。 

(3) 删除 每 个 broker 的 分 区 目录 ， 这 些 目 录 的 名 字 可 能 是 TOPICNAME-NUM， 其 中 NUM 是 指 分 
区 的 ID。 


(4) 重启 所 有 的 broker。 


9.8 总 结 


运行 一 个 Kafka 集群 需要 付出 很 大 的 努力 ， 为 了 让 Kafka 保持 匮 峰 状 态 ， 需 要 做 大 量 的 配 
置 和 维护 。 我 们 在 这 一 章 里 介绍 了 Kafka 的 很 多 日 常 操 作 ， 比 如 经 常会 用 到 的 主题 管理 和 
客户 端 配 置 ， 也 介绍 了 一 些 用 于 诊断 问题 的 复杂 操作 ， 比 如 检查 日 志 片 段 ， 最 后 还 介绍 了 
一 些 不 安全 的 操作 ， 这 些 操 作 在 特殊 的 情况 下 可 以 帮 你 解决 问题 。 通 过 执行 这 些 操 作 ， 你 
就 可 以 更 好 地 管理 Kafka 集群 。 

当然 ， 如 果 没 有 进行 适当 的 监控 ,管理 集 群 就 是 一 个 不 可 能 完成 的 任务 。 第 10 章 将 会 讨 
论 如 何 对 broker 和 集群 的 健康 状况 以 及 操作 进行 监控 ， 这 样 就 可 以 知道 Kafka 的 运行 状态 
了 了。 我们 也 会 提供 一 些 有 关 客 户 端 (包括 生产 者 和 消费 者 ) 监控 的 最 佳 实践 。 
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第 10 章 
监控 Kafka 





Kafka 应 用 程序 包含 了 大 量 的 度量 指标 ， 以 至 于 很 多 人 搞 不 清楚 哪些 是 重要 的 ， 哪 些 可 以 
置之不理 。 它 们 所 涉及 的 范围 ， 从 简单 的 流量 速率 度量 指标 到 各 种 请 求 类 型 的 时 间 度 量 指 
标 ， 既 有 主题 级 别 的 ， 也 有 分 区 级 别 的 。 这 些 度 量 指标 为 broker 的 每 一 种 行为 提供 了 详细 
的 信息 ， 不 过 它们 也 成 为 了 Kafka 系统 监控 者 的 “中 梦 ”。 

这 一 章 将 详细 介绍 一 些 常 用 的 关键 性 度量 指标 ， 以 及 如 何 根据 这 些 指标 采取 相应 的 行动 ， 
也 会 介绍 一 些 用 于 调试 问题 的 度量 指标 。 不 过 ， 这 不 是 一 个 完整 的 度量 指标 清单 。 度 量 指 
标清 单 会 经 常 发 生变 化 ， 而 且 很 多 度量 指标 只 对 有 经 验 的 Kafka 开发 人 员 有 参考 价值 。 


10.1 度量 指标 基础 


在 介绍 Kafka broker 和 客户 端的 度量 指标 之 前 ， 先 来 讨论 有 关 监 控 Java 应 用 程序 的 基础 知 
识 ， 以 及 有 关 监 控 和 告警 的 最 佳 实践 。 学 完 本 章 知 识 ， 读 者 将 会 对 应 用 程序 的 监控 有 一 个 
基本 的 了 解 ， 同 时 能 明白 度量 指标 的 重要 性 。 


10.1.1 度量 指标 在 哪里 


Kafka 提供 的 所 有 度量 指标 都 可 以 通过 Java Management Extensions (JMX) 接口 来 访 
问 。 要 在 外 部 监控 系统 里 使 用 这 些 度量 指标 ， 最 简单 的 方式 是 将 负责 收集 度量 指标 的 代理 
(agent) 连接 到 Kafka 上 。 代 理 作为 一 个 单独 的 进程 运行 在 监控 系统 里 ， 并 连接 到 Kafka 
的 JMX 接口 上 ， 例 如 使 用 Nagios XI check_jmx 插件 或 jmxtrans 来 连接 JMX 接口 ， 也 可 
以 直接 在 Kafka 进程 里 运行 一 个 JMX 代理 ， 然 后 通过 HTTP 连接 访问 度量 指标 ， 比 如 
Jolokia 或 MX4J。 


本 章 将 不 会 深入 讨论 如 何 设置 监控 代理 ， 每 一 种 代理 都 有 多 种 使 用 方式 。 如 果 所 在 的 组 织 
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没有 监控 Java 应 用 程序 的 经 验 ， 那 么 可 以 考虑 使 用 第 三 方 的 监控 服务 。 如 有 果 采 用 了 这 种 方 
式 ， 那 就 需要 从 服务 供应 商 那里 购买 监控 服务 ， 由 他 们 提供 监控 代理 、 度 量 指标 收集 点 、 
存储 、 图 形 化 和 告警 。 服 务 供应 商 可 以 搭建 监控 代理 ， 并 提供 后 续 的 服务 支持 。 


找到 JMX 端口 


broker 将 JMX 端口 作为 整个 broker 配置 信息 的 一 部 分 保存 在 Zookeeper 
上 。 所 以 ， 如 果 要 通过 编程 的 方式 访问 Kafka 的 JMX， 比 如 管理 工具 需要 
在 没有 端口 配置 的 情况 下 连接 到 JMX， 那 么 可 以 从 Zookeeper 上 获取 端口 
党 息 。/brokers/ids/<ID> 节点 包含 了 JSON 格式 的 broker 信息 ， 里 面 有 
JMX 对 应 的 主机 名 (hostname) 和 端口 (jmx_port)。 










































































10.1.2 ”内 部 或 外 部 度量 

JMX 接口 提供 的 是 内 部 度量 指标 ， 它 们 由 被 监控 的 应 用 程序 生成 。 对 于 很 多 内 部 度量 来 说 
(比如 各 个 请 求 阶段 的 时 间 )， 使 用 内 部 度量 指标 是 最 好 的 选择 。 没 有 什么 能 比 应 用 程序 更 
加 了 解 自己 了 。 还 有 一 些 度量 指标 ， 比 如 请 求 的 整体 时 间 、 某 种 请 求 类 型 的 可 用 性 ， 可 以 
在 应 用 程序 外 部 进行 度量 。 也 就 是 说 ， 这 些 度量 指标 是 由 客户 端 或 其 他 第 三 方 应 用 (对 于 
我 们 来 说 就 是 指 Kafka broker) 提供 的 。 另 外 也 有 一 些 度量 指标 ， 比 如 可 用 性 (broker 是 
否 可 达 ) 或 延迟 (请 求 需要 的 时 间 )。 这 些 度 量 指 标 为 被 监控 的 应 用 程序 提供 了 很 有 用 的 
外 部 视图 。 
et es -种 外 部 度量 。 个 正常 运行 的 Web 服务 器 能 够 正常 处 理 
请 求 ， 它 1 ， 一 切 看 起 来 都 很 好 。 不 过 ，Web 服务 器 本 身 的 防火 墙 
或 服务 器 所 处 网 络 的 防火 寺 能 导致 客户 端 无 法 连接 到 服务 器 上 。 负 责 检查 网 站 可 访问 性 
en 并 发 送 告警 。 


10.1.3 ”应 用 程序 健康 检测 


不 管 通过 哪 一 种 方式 从 Kafka 收集 监控 信息 ， 都 要 确保 能 够 通过 简单 的 健康 检测 来 监控 应 
用 程序 本 身 的 健康 状况 ， 这 可 以 通过 两 种 方式 来 实现 。 


。 使 用 外 部 进程 来 报告 broker 的 运行 状态 (健康 检测 )。 
。 在 broker 停止 发 送 度量 指标 时 发 出 告警 (也 叫 作 stale 度量 指标 )。 


虽然 第 二 种 方式 也 是 可 行 的 ， 但 有 时 候 很 难 区 分 是 broker 出 现 了 问题 还 是 监控 系统 本 身 出 
现 了 问题 。 


如 果 监 控 的 是 broker， 可 以 直接 连接 到 它 的 外 部 端口 (就 是 客户 端 连接 到 broker 所 使 用 的 
端口 )， 看 看 是 否 可 以 得 到 响应 。 如 果 监 控 的 是 Kafka 客户 端 ， 就 会 比较 复杂 ， 需 要 检查 
进程 是 否 处 于 运行 状态 ， 或 者 通过 内 部 提供 的 方法 来 确定 应 用 程序 的 健康 状况 。 
10.1.4 度量 指标 的 覆盖 面 

Kafka 提供 了 很 多 度量 指标 ， 如 何 选择 合适 的 度量 指标 非常 关键 ， 特 别 是 在 基于 这 些 度 量 
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指标 定义 告警 的 时 候 。 太 多 难以 确定 严重 程度 的 告警 很 容易 让 人 们 陷入 “告警 疲劳 *， 我 
们 难以 为 每 一 个 度量 指标 定义 恰当 的 国 值 并 保持 更 新 ， 告 警 的 可 信和 度 也 会 因此 而 下 降 。 
一 些 大 覆盖 面 的 告警 用 处 更 大 。 也 就 是 说 ， 这 类 告警 会 告诉 我 们 某 处 出 现 了 问题 ， 然 后 我 
们 去 收集 更 多 的 信息 ， 以 便 确定 问题 的 细 市 。 想 象 一 下 汽车 的 “检查 引 敬 ”告警 灯 ， 如 果 
仪表 盘 上 有 100 个 不 同 的 指示 器 ， 比 如 空气 过 着 器 、 油 箱 、 排 气管 等 ， 那 么 就 会 让 人 感到 
很 困惑 。 相 反 ， 如 采用 一 个 指示 器 就 能 告诉 我 们 汽车 出 现 了 问题 ， 然 后 我 们 再 去 找 出 问题 
的 其 他 细节 ， 事 情 就 会 变 得 简单 很 多 。 这 一 章 将 介绍 具有 大 覆盖面 的 度量 指标 ， 它 们 可 以 
让 告警 变 得 更 简单 。 


10.2 broker 的 度量 指标 


broker 提供 了 很 多 度量 指标 ， 它 们 大 部 分 都 是 底层 的 度量 ， 由 Kafka 开发 者 出 于 诊断 或 调 
试 的 目的 而 增加 ， 也 有 为 预测 将 来 需要 的 信息 而 添加 ， 另 外 还 有 由 Kafka 用 户 请 求 添加 ， 
以 供 日 常 操作 所 需 。 这 些 度量 指标 提供 的 信息 儿 乎 涵盖 了 broker 的 每 一 项 功能 。 它 们 很 容 
易 造 成 信息 过 载 ， 不 过 也 有 一 些 度量 指标 为 Kafka 的 日 常 运行 提供 了 必要 的 信息 。 


示例 : 谁 来 看 着 watcher 


很 多 组 织 使 用 Kafka 收集 应 用 程序 和 系统 的 度量 指标 与 日 志 ， 然 后 供 中 心 
监控 系统 使 用 ， 这 样 可 以 很 好 地 解 耦 应 用 程序 和 监控 系统 。 不 过 ， 对 于 
Kafka 本 身 来 说 却 存 在 一 个 问题 ， 如 果 使 用 这 个 监控 系统 来 监控 Kafka， 那 
么 当 Kafka 崩 江 时 ， 我 们 很 可 能 无 法 感知 到 ， 因 为 监控 系统 的 数据 流 也 随 
着 消失 了 。 

有 一 些 办 法 可 以 解决 这 个 问题 。 一 种 方法 是 使 用 一 个 单独 的 监控 系统 来 监 
控 Kafka， 这 个 系统 不 依赖 Kafka 提供 的 数据 。 男 一 种 方法 是 ， 如 果 有 多 个 
数据 中 心 ， 可 以 将 数据 中 心 A 的 Kafka 集群 度量 指标 生成 到 数据 中 心 B 的 
Kafka 集群 上 ， 反 之 亦 然 。 不 管 怎 样 ， 要 确保 Kafka 的 监控 和 告警 不 依赖 
Kafka 本 身 。 



































































































































本 节 将 从 讨论 非 同步 分 区 度量 指标 开始 ， 介 绍 如 何 根据 这 些 度量 指标 采取 行动 ， 然 后 讨论 
其 他 的 度量 指标 ， 以 便 对 broker 的 度量 指标 有 一 个 全 面 的 认识 。 这 里 不 会 列 出 broker 的 所 
有 度量 指标 ， 但 会 列 出 那些 在 监控 broker 和 集群 时 必须 用 到 的 部 分 。 在 介绍 客户 端 度量 指 
标 之 前 ， 还 会 针对 日 志 展 开 详 细 的 讨论 。 


10.2.1 非 同步 分 区 


如 果 说 broker 只 有 一 个 可 监控 的 度量 指标 ， 那 么 它 一 定 是 指 非 同 步 分 区 的 数量 。 该 度量 指 
明了 作为 首领 的 broker 有 多 少 个 分 区 处 于 非 同 步 状态 。 这 个 度量 可 以 反映 Kafka 的 很 多 内 
部 问题 ， 从 broker 的 崩 江 到 资源 的 过 度 消耗 。 因 为 这 个 度量 指标 可 以 说 明 很 多 问题 ， 所 以 
当 它 的 值 大 于 零 时 ， 就 应 该 想 办 法 采取 相应 的 行动 。 本 章 稍 后 会 介绍 更 多 用 于 诊断 这 类 问 
题 的 度量 指标 。 表 10-1 列 出 了 非 同步 分 区 度量 指标 的 详细 信息 。 
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表 10-1: 度量 指标 和 对 应 的 非 同步 分 区 


度量 指标 名 称 ”Under-replicated partitions 
JIMX MBean kafka.server:type=ReplicaManager ,name=UnderReplicatedPartitionis 


值 区 间 非 负 整 数 


如 果 集 群 里 多 个 broker 的 非 同 步 分 区 数量 一 直 保 持 不 变 ， 那 说 明 集群 中 的 某 个 broker 已 经 
离线 了 。 整 个 集群 的 非 同 步 分 区 数量 等 于 离线 broker 的 分 区 数量 ， 而 且 离 线 broker 不 会 生 
成 任何 度量 指标 。 这 个 时 候 ， 需 要 检查 这 个 broker 出 了 什么 问题 ， 并 解决 问题 。 通 常 有 可 
能 是 硬件 问题 ， 也 有 可 能 是 操作 系统 问题 或 者 Java 问题 ， 导 致 进程 出 现 中 断 或 挂 起 。 
默认 的 副本 选举 

在 诊断 问题 之 前 ， 堂 试 过 运行 默认 的 副本 选举 (参见 第 9 章 ) 吗 ? broker 在 
释放 首领 角色 (发 生 月 潢 或 被 关闭 ) 之 后 不 会 自动 恢复 首领 角色 (除非 启用 

了 首领 自动 再 均衡 ， 不 过 不 建议 启用 这 个 功能 )。 也 就 是 说 ， 集 群 里 的 首领 
副本 很 容易 出 现 不 均衡 。 运 行 默认 的 副本 选举 是 很 容易 的 ， 也 很 安全 ， 所 以 
在 出 现 这 类 问题 时 ， 建 议 先 重新 选举 首领 ， 看 看 能 否 解 决 问题 。 

























































































如 果 非 同步 分 区 的 数量 是 波动 的 ， 或 者 虽然 数量 稳定 但 并 没有 broker 离线 ， 说 明 集 群 出 
现 了 性 能 问题 。 这 类 问题 繁复 多 样 ， 难 以 诊断 ， 不 过 可 以 通过 一 些 步 又 来 缩小 问题 的 范 
围 。 第 一 步 ， 先 确认 问题 是 与 单个 broker 有 关 还 是 与 整个 集群 有 关 。 不 过 有 时 候 这 个 也 难 
有 定论 。 如 果 非 同步 分 区 属于 单个 broker， 那 么 这 个 broker 就 是 问题 的 根源 ， 表 象 是 其 他 
broker 无 法 从 它 那 里 复制 消息 。 

如 果 多 个 broker 都 出 现 了 非 同 步 分 区 ， 那 么 有 可 能 是 集群 的 问题 ， 也 有 可 能 是 单个 broker 
的 问题 。 这 时 候 有 可 能 是 因为 一 个 broker 无 法 从 其 他 broker 那里 复制 数据 。 为 了 找 出 这 个 
broker， 可 以 列 出 集群 的 所 有 非 同步 分 区 ， 并 检查 它们 的 共性 。 使 用 kafka-topics.sh 工具 
(第 9 章 已 详细 介绍 过 ) 可 以 获取 非 同步 分 区 清单 。 

示例 : 列 出 集群 的 非 同步 分 区 。 


# kafka-topics.sh --zookeeper zoo01.example.com:2181/kafka-cluster --describe 
--under-repLicated 







































































x 


Topic: topicOne Partition: 5 Leader: 1 Replicas: 1,2 Isr: 1 
Topic: topicOne Partition: 6 Leader: 3 Replicas: 2,3 Isr: 3 
Topic: topicTwo Partition: 3 Leader: 4 Replicas: 2,4 Isr: 4 
Topic: topicTwo Partition: 7 Leader: 5 Replicas: 5,2 Isr: 5 
Topic: topicSix Partition: 1 Leader: 3 Replicas: 2,3 Isr: 3 
Topic: topicSix Partition: 2 Leader: 1 Replicas: 1,2 Isr: 1 
Topic: topicSix Partition: 5 Leader: 6 Replicas: 2,6 Isr: 6 
Topic: topicSix Partition: 7 Leader: 7 Replicas: 7,2 Isr: 7 
Topic: topicNine Partition: 1 Leader: 1 Replicas: 1,2 Isr: 1 
Topic: topicNine Partition: 3 Leader: 3 Replicas: 2,3 Isr: 3 
Topic: topicNine Partition: 4 Leader: 3 Replicas: 3,2 Isr: 3 
Topic: topicNine Partition: 7 Leader: 3 Replicas: 2,3 Isr: 3 
Topic: topicNine Partition: 0 Leader: 3 Replicas: 2,3 Isr: 3 
Topic: topicNine Partition: 5 Leader: 6 Replicas: 6,2 Isr: 6 
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在 这 个 示例 中 ，broker 2 出 现在 所 有 的 副本 清单 里 ， 但 没有 出 现在 所 有 的 同步 副本 (ISR) 
清单 里 ， 所 以 要 将 注意 力 放 在 这 个 broker 上 。 如 果 设 有 发 现 这 样 的 broker， 那 么 问题 有 可 
能 出 在 整个 集群 上 。 

1. 集群 级 别 的 问题 

集群 问题 一 般 分 为 以 下 两 类 。 

。 不 均衡 的 负载 。 

。 资源 过 度 消 耗 。 

分 区 或 首领 的 不 均衡 问题 虽然 解决 起 来 有 点 复杂 ， 但 问题 的 定位 是 很 容易 的 。 为 了 诊断 这 
个 问题 ， 需 要 用 到 broker 的 以 下 度量 指标 。 

。 分 区 的 数量 。 
。 首领 分 区 的 数量 。 

。 主题 流入 字 节 速率 。 

。 主题 流入 消息 速率 。 

检查 指标 。 在 一 个 均衡 的 集群 里 ， 这 些 度量 指标 的 数值 在 整个 集群 范围 内 是 均等 的 ， 如 表 
10-2 所 示 。 

表 10-2: 资源 使 用 情况 度量 指标 


Broker ”分 区 首领 ”流入 字 节 流出 字 节 



































1 100 50 3.56 MB/s 9.45 MB/s 
2 101 49 3.66 MB/s 9.25 MB/s 


3 100 50 3.23 MB/s 9.82 MB/s 


也 就 是 说 ， 所 有 的 broker 几乎 处 理 相 同 的 流量 。 假 设 在 运行 了 默认 的 副本 选举 之 后 ， 这 
些 度 量 指标 出 现 了 很 大 的 偏差 ， 那 说 明 集 群 的 流量 出 现 了 不 均衡 。 要 解决 这 个 问题 ， 需 要 
将 负载 较 重 的 broker 分 区 移动 到 负载 较 轻 的 broker 上 。 这 可 以 使 用 第 9 章 介 绍 的 kafka- 
reassign-partitions.sh 工具 来 实现 。 


实现 集群 负载 均衡 的 辅助 工具 


broker 本 身 无 法 在 整个 集群 里 实现 自动 的 分 区 重 分 配 。 也 就 是 说 ，Kafka 集 
群 的 流量 均衡 是 一 个 十 分 费劲 的 过 程 ， 需 要 手动 检查 一 大 串 度量 指标 ， 然 后 
进行 均衡 的 副本 重 分 配 。 为 了 解决 这 个 问题 ， 有 一 些 组 织 开发 了 自动 化 工具 
来 帮助 完成 这 个 任务 。 例 如 ，LinkedIn 发 布 了 一 个 叫 作 kafka-assigner 的 工 
具 ， 可 以 在 GitHub 的 开源 代码 仓库 kafka-tools 里 找到 。Kafka 提供 的 企业 支 
持 服务 也 包含 了 这 一 功能 。 




















Kafka 集群 的 另 一 个 性 能 问题 是 容量 瓶 须 。 有 很 多 淤 在 的 瓶颈 会 拖 慢 整个 系统 : CPU、 磁 
盘 IO 和 网 络 否 吐 量 是 其 中 最 为 常见 的 。 磁 盘 的 使 用 并 不 在 其 列 ， 因 为 当 磁盘 被 填 满 时 ， 
broker 会 在 进行 适当 的 操作 之 后 直接 有 崩溃。 为 了 诊断 容量 问题 ， 可 以 对 如 下 一 些 操作 系统 
级 别 的 度量 指标 进行 监控 。 
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。 CPU 使 用 。 

。 网 络 输入 吞吐 量 。 
。 网 络 输出 吞吐 量 。 
。 磁盘 平均 等 待 时 间 。 
。 磁盘 使 用 百分比 。 


上 述 任何 一 种 资源 出 现 过 度 消 耗 ， 都 会 表现 为 分 区 的 不 同步 。 要 记 住 ，broker 的 复制 过 
程 使 用 的 也 是 Kafka 客户 端 。 如 果 集 群 的 数据 复制 出 现 了 问题 ， 那 么 集群 的 用 户 在 生产 
消息 或 读 取消 息 时 也 会 出 现 问 题 。 所 以 ， 有 必要 为 这 些 度量 指标 定义 一 个 基线 ， 并 设 定 
相应 的 冰 值 ， 以 便 在 容量 告急 之 前 定位 问题 。 随 着 集群 流量 的 增长 ， 对 这 些 度量 指标 的 
趋势 走向 进行 检查 也 是 很 有 必要 的 。 其 中 ，ALL Topics Bytes In Rate 最 适合 用 于 显示 
集群 的 使 用 情况 。 

2. 主机 级 别 的 问题 


如 果 性 能 问题 不 是 出 现在 整个 集群 上 ， 而 是 出 现在 一 两 个 broker 里 ， 那 么 就 要 检查 broker 
所 在 的 主机 ， 看 看 是 什么 导致 它 与 集群 里 的 其 他 broker 不 一 样 。 主 机 级 别 的 问题 可 以 分 为 
以 下 几 类 。 

。 硬件 问题 。 

。 进程 冲突 。 

。 本 地 配置 的 不 一 致 。 


典型 的 服务 器 和 典型 的 问题 


当 一 个 服务 器 及 其 操作 系统 承载 了 数 千 个 组 件 时 ， 会 变 得 很 复杂 ， 任 何 一 个 
组 件 都 可 能 出 现 问 题 ， 导 致 整体 的 崩溃 或 者 部 分 的 性 能 衰退 。 本 书 不 可 能 覆 
盖 到 所 有 的 内 容 ， 关 于 这 个 话题 的 书 已 经 有 很 多 了 ， 而 且 这 种 局 面 还 会 一 直 
寺 续 下 去 。 不 过 ， 本 书 可 以 讨论 一 些 最 为 常见 的 问题 ， 这 一 小 节 将 着 重 讨论 
运行 Linux 操作 系统 的 服务 器 。 
























































人 硬件 问题 很 容易 被 发 现 ， 因 为 服务 器 会 直接 停止 工作 。 不 过 ，3 引 起 性 能 豪 进 的 硬件 问题 却 
不 那么 明显 。 当 出 现 这 类 问题 时 ， 系 统 仍旧 保持 运行 ， 但 会 降低 行为 能 力 。 比 如 内 存 出 现 
了 坏 点 ， 系 统 检 测 到 坏 点 ， 直 接 跳 过 这 个 片段 (可 用 的 内 存 因 此 减少 了 )。 类 似 的 问题 也 
会 发 生 在 CPU 上 。 对 于 这 类 问题 ， 可 以 使 用 硬件 提供 的 工具 来 监控 硬件 的 健康 状况 ， 比 
如 智能 平台 管理 接口 (IPMI)。 出 现 问 题 时 ， 可 以 通过 dmesg 查看 输出 到 系统 控制 台 的 内 
核 缓冲 区 日 志 。 


能 够 导致 Kafka 性 能 衰退 的 一 个 比较 常见 的 硬件 问题 是 磁盘 故障 。Kafka 使 用 磁盘 来 存储 
消息 ， 生 产 者 的 性 能 与 磁盘 的 写 入 速度 有 直接 关系 。 这 里 出 现 的 任何 偏差 都 会 表现 为 生产 
者 和 复制 消息 者 的 性 能 问题 ， 而 后 者 会 导致 分 区 的 不 同步 。 因 此 ， 应 该 持续 地 监控 磁盘 ， 
并 在 出 现 问题 时 马上 进行 修复 。 
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一 粒 老鼠 屎 

一 个 broker 的 磁盘 问题 可 能 会 影响 到 整个 集群 的 性 能 。 因 为 生产 者 客户 端 会 
连接 到 所 有 的 broker 上 ， 如 果 操 作 得 当 ， 这 些 broker 的 分 区 几乎 能 够 均等 
地 分 布 在 整个 集群 里 。 如 果 一 个 broker 性 能 出 现 衰退 并 拖 慢 了 处 理 请 求 的 速 
度 ， 就 会 导致 生产 者 的 回 压 ， 从 而 拖 慢 发 给 所 有 broker 的 请 求 。 











假设 你 正在 通过 IPMI 或 其 他 硬件 管理 接口 来 监控 磁盘 的 状态 ， 与 此 同时 ， 在 操作 系统 上 
运行 了 SMART (Self-Monitoring, Analysis and Reporting Technology， 自 行 监控 、 分 析 和 报 
告 技 术 ) 工具 来 监控 和 测试 磁盘 。 在 故障 即将 发 生 时 ， 它 会 发 出 告警 。 除 此 之 外 ， 还 要 广 
意 查 看 磁盘 控制 器 ， 不 管 是 否 使 用 了 RAID 硬件 都 要 注意 查看 。 很 多 磁盘 控制 器 都 有 板 载 
的 缓存 ， 这 个 缓存 只 在 控制 器 和 电池 备份 单元 (BBU) 正常 工作 时 才 会 被 使 用 。 如 果 BBU 
发 生 故 障 ， 缓 存 就 会 被 禁用 ， 磁 盘 的 性 能 就 会 衰退 。 

在 网 络 方面 ， 局 部 的 故障 也 会 带 来 很 大 的 问题 。 有 些 问 题 是 硬件 引起 的 ， 比 如 糟糕 的 光缆 
或 连接 器 。 有 些 问 题 是 配置 不 当 造 成 的 ， 比 如 更 改 了 服务 器 或 上 游 网 络 硬 件 的 网 络 连 接 速 
度 和 双 工 设置 。 网 络 配 置 问题 还 有 可 能 出 现在 操作 系统 上 ， 比 如 网 络 缓冲 区 太 小 ， 或 者 大 
多 的 网 络 连 接 占 用 了 大 量 的 系统 内 存 。 在 这 方面 ， 网 络 接 口 的 错误 数量 是 一 个 最 为 关键 的 
指标 。 如 果 这 个 数字 一 直 在 增长 ， 说 明 网 络 连接 出 现 了 问题 。 


如 果 硬 件 没有 问题 ， 那 么 需要 注意 系统 里 的 其 他 应 用 程序 ， 它 们 也 会 消耗 系统 的 资源 ， 而 
且 有 可 能 会 给 Kafka 带 来 压力 。 它 们 有 可 能 是 没有 被 正常 安装 的 软件 ， 或 者 一 个 非 正 常 
运行 的 进程 ， 比 如 监控 代理 进程 。 对 于 这 种 情况 ， 可 以 使 用 top 工具 来 识别 那些 大 量 消 耗 
CPU 或 内 存 的 进程 。 
如 果 经 过 上 述 的 检查 还 是 找 不 出 主机 的 问题 根源 ， 那 么 有 可 能 是 broker 或 者 系统 配置 不 
一 致 造成 的 。 一 个 服务 器 上 运行 着 多 个 应 用 程序 ， 每 个 应 用 程序 有 多 个 配置 选项 ， 要 找 出 
它们 的 差别 真是 一 项 艰巨 的 任务 。 这 就 是 为 什么 要 使 用 配置 管理 工具 (如 Chef 或 Puppet) 
来 维护 操作 系统 和 应 用 程序 (包括 Kafka) 的 配置 一 致 性 。 













































































10.2.2 ”broker 度量 指标 


除了 非 同 步 分 区 数量 外 ， 还 有 其 他 很 多 broker 级 别 的 度量 指标 需要 监控 。 虽 然 不 一 定 会 藉 
所 有 的 度量 指标 设 定 告警 国 值 ， 但 它们 的 确 提供 了 关于 broker 和 集群 的 有 价值 的 信息 。 它 
们 都 应 该 出 现在 监控 仪表 盘 上 。 


1. 活跃 控制 器 数量 


该 指标 表示 broker 是 否 就 是 当前 的 集群 控制 器 ， 其 值 可 以 是 0 或 1。 如 果 是 1， 表示 
broker 就 是 当前 的 控制 器 。 任 何 时 候 ， 都 应 该 只 有 一 个 broker 是 控制 器 ， 而 且 这 个 broker 
必须 一 直 是 集群 控制 器 。 如 果 出 现 了 两 个 控制 器 ， 说 明 有 一 个 本 该 退出 的 控制 器 线程 被 阻 
塞 了 ， 这 会 导致 管理 任务 无 法 正常 执行 ， 比 如 移动 分 区 。 为 了 解决 这 个 问题 ， 需 要 将 这 两 
个 broker 重启 ， 而 且 不 能 通过 正常 的 方式 重启 ， 因 为 此 时 它们 无 法 被 正常 关闭 。 表 10-3 
给 出 了 活跃 控制 器 数量 度量 指标 的 详细 信息 。 
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表 10-3: 活跃 控制 器 数量 度量 指标 





度量 指标 名 称 Active controller count 
JMX MBean kafka.controller:type=KafkaController ,name=ActiveControllerCount 
值 区 间 0 或 1 


如 果 集 群 里 没有 控制 器 ， 集 群 就 无 法 对 
或 分 区 的 创建 和 broker 故障 。 这 时 候 要 
Zookeeper 集群 的 网 络 分 区 就 会 造成 这 上 书 


有 broker， 重 置 控 制 器 线程 的 状态 。 
2. 请 求 处 理 器 空闲 率 


Kafka 使 用 了 两 个 线程 池 来 处 理 客户 端的 请 求 : 网 络 处 理 器 线程 池 和 请 求 处 型 





网 络 处 
不 用 太 过 担心 这 些 线程 会 
































伏 态 的 变更 作出 恰当 的 响应 ， 状 态 的 变更 包括 主题 
注意 检查 为 什么 控制 器 线程 没有 正常 运行 ， 比 如 ， 
的 问题 。 解 决 底层 的 问题 之 后 ， 重 启 集群 里 的 所 























器 线程 地。 








里 器 线程 池 负 责 通过 网 络 读 入 和 写 出 数据 。 这 里 没有 太 多 的 工作 要 做 ， 也 就 是 说 ， 
H 现 问题 。 请 求 处 理 器 线程 池 负 责 处 理 来 自 客户 端的 请 求 ， 包 括 


从 磁盘 读 取消 息 和 往 磁 盘 写 入 消息 。 因 此 ，broker 负载 的 增长 对 这 个 线程 池 有 很 大 的 影响 。 


表 10-4 给 出 了 请 求 处 理 








表 10-4: 请 求 处 理 器 空闲 率 


器 空闲 率 度量 指标 的 详细 信息 。 











度量 指标 名 称 Request handler average idle percentage 
JMX MBean kafka.server:type=KafkaRequestHandLerPooL,name=RequestHandLerAvgIdLePercent 
值 区 间 从 0 到 1 的 浮 点 数 (包括 1 在 内 ) 

智能 地 使 用 线程 


请 求 处 到 


这 样 看 来 ， 好 像 需要 数 百 个 请 求 处 理 





没 必 要 超过 CPU 的 核 数 。Kafka 在 使 用 请 求 处 理 器 时 是 非常 智能 的 ， 


流 需 要 很 长 时 间 来 处 型 


E 的 请 求 。 例 妇 








需要 多 个 确认 时 ，Kafka 就 会 使 用 这 个 功能 。 

















器 平均 空闲 百分比 这 个 度量 指标 表示 请 求 处 理 器 空闲 时 间 的 百分比 。 


器 线程 ， 但 实际 上 ， 请 求 处 理 器 线程 数 


它 会 和 


9， 当 请 求 的 配额 被 限定 或 每 个 生产 请 求 


数值 越 低 ， 


说 明 broker 的 负载 越 高 。 经 验 表明 ， 如 果 空 闪 百分比 低 于 20%， 说 明 存在 潜在 的 问题 ， 如 
有 果 低 于 10%， 说 明 出 现 了 性 能 问题 。 除 了 集群 的 规模 太 小 之 外 ， 还 有 其 他 两 个 原因 会 增 大 


这 个 线程 池 的 使 用 量 。 首 先 ， 线 程 池 是 
量 应 该 与 系统 的 处 到 



































另 一 个 常见 的 原因 是 线程 做 了 不 该 做 的 事 。 在 Kafka 0.10 之 前 ， 请 求 处 理 器 线 


传 入 的 消息 批 次 、 验 证 消息 、 分 配 偏 移 量 ， 并 
压缩 方法 使 用 了 同步 锁 。Kafka 0.10 版 本 引入 了 一 种 新 的 格式 ， 偏 移 量 可 以 直接 附加 在 消 
生产 者 在 发 送 消 息 批 次 之 前 可 以 设置 相对 的 偏 移 量 ， 这 样 broker 就 





息 批 次 里 。 也 就 是 说 ， 

















有 没有 足够 的 线程 。 一 般 来 说 ， 请 求 处 理 器 线程 的 数 
器 核 数 一 样 (包括 多 线程 处 理 器 )。 


程 负 责 解压 











任 写 入 磁盘 之 前 重新 压缩 消息 。 











糟糕 的 是 ， 


可 以 避免 解压 缩 和 重新 压缩 。 如 果 使 用 了 支持 0.10 版 本 消息 格式 的 生产 者 和 消费 者 客户 
端 ， 并 且 把 broker 的 消息 格式 也 升级 到 了 0.10 版 本 ， 可 以 发 现 性 能 有 了 显著 的 改进 。 这 样 


可 以 降低 对 请 求 处 型 




















器 线程 的 消耗 。 
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主题 流入 字 节 速率 使 用 b/s 来 表示 ， 在 对 broker 接收 的 生产 者 客户 端 消息 流量 进行 度量 时 ， 
这 个 度量 指标 很 有 用 。 该 指标 可 以 用 于 确定 何 时 该 对 集群 进行 扩展 或 开展 其 他 与 规模 增长 
相关 的 工作 。 它 也 可 以 用 于 评估 一 个 broker 是 否 比 集群 里 的 其 他 broker 接收 了 更 多 的 流 
量 ， 如 果 出 现 了 这 种 情况 ， 就 需要 对 分 区 进行 再 均衡 。 表 10-5 给 出 了 详细 信息 。 
表 10-5: 主题 流入 字 节 度 量 指标 

度量 指标 名 称 Bytes in per second 
JMX MBean kafka.server:type=BrokerTopicMetrics ,name=BytesInPerSec 

值 区 间 速率 为 双 精 度 浮 点 数 ， 计 数 为 整数 
因为 这 是 第 一 个 速率 度量 指标 ， 所 以 有 必要 对 它 的 属性 进行 简短 的 描述 。 所 有 的 速率 指标 
都 提供 了 7 个 属性 ， 使 用 哪些 属性 完全 取决 于 实际 的 需求 。 它 们 可 能 是 具体 的 数字 ， 也 有 
可 能 是 基于 某 些 时 间 段 的 平均 值 。 如 果 没 能 恰当 地 使 用 这 些 指标 ， 就 无 法 看 到 broker 真实 
的 状况 。 
前 两 个 属性 与 度量 无 关 ， 但 有 助 于 更 好 地 理解 相应 的 度量 指标 。 
EventType 

这 是 度量 的 单位 ， 在 这 里 是 “ 字 市 ”。 
RateUnit 

这 是 速率 的 时 间 段 ， 在 这 里 是 “ 秒 ”。 
这 两 个 属性 表明 ， 速率 是 通过 b/s 来 表示 的 ， 不 管 它 的 值 是 基于 多 长 的 时 间 段 算出 的 平均 
值 。 速 率 还 有 其 他 4 个 不 同 粒度 的 属性 。 
OneMinuteRate 

前 1 分 钟 的 平均 值 。 
FiveMinuteRate 

前 5 分 钟 的 平均 值 。 
FifteenMinuteRate 

前 15 分 钟 的 平均 值 。 
MeanRate 

从 broker 启动 到 目前 为 止 的 平均 值 。 
OneMinuteRate 波动 很 快 ， 它 提供 了 “时 间 点 ”粒度 的 度量 ， 适 用 于 查看 短期 的 流量 走势 。 
MeanRate 一 般 不 会 有 太 大 变化 ， 它 提供 的 是 整体 的 流量 走势 。 虽 然 有 一 定 的 用 途 ， 但 一 般 
不 需要 对 它 设 置 告 丈 。FiveMinuteRate 和 和 FifteenMinuteRate 提供 了 中 间 粒 度 的 度量 。 
除了 速率 属性 外 ， 速 率 指标 还 有 一 个 Count 属性 ， 会 在 broker 局 动 之 后 保持 增长 。 对 于 这 
个 指标 来 说 ，Count 代表 了 从 broker 启动 以 来 接收 到 流量 的 字 节 总 数 。 将 该 属性 用 在 一 个 
支持 计数 度量 指标 的 监控 系统 里 ， 就 可 以 提供 度量 的 完整 视图 ， 而 不 仅仅 是 平均 速率 。 
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4. 主题 流出 字 节 





主题 流出 字 节 速率 与 流入 字 节 速率 类 似 ， 是 另 一 个 与 规模 增长 有 关 的 度量 指标 。 流 出 字 节 速 
率 显示 的 是 消费 者 从 broker 读 取消 息 的 速率 。 流 出 速率 与 流入 速率 的 伸缩 方式 是 不 一 样 的 ， 
这 要 归功 于 Kafka 对 多 消费 者 客户 端的 支持 。 很 多 Kafka 的 流出 速率 可 以 达到 流入 速率 的 6 
倍 ! 所 以 单独 对 流出 速率 进行 观察 和 走势 分 析 是 非常 重要 的 。 表 10-6 给 出 了 详细 信息 。 
表 10-6: 主题 流出 字 节 度量 指标 

度量 指标 名 称 ”Bytes out per second 

JMX MBean 











kafka.server:type=BrokerTopicMetrics,name=BytesOutPerSec 


值 区 间 速率 为 双 精 度 浮 点 数 ， 计 数 为 整数 





把 复制 消费 者 包括 在 内 








流出 速率 也 包括 副本 流量 ， 也 就 是 说 ， 如 果 所 有 主题 都 设置 了 复制 系数 2， 
那么 在 没有 消费 者 客户 端的 情况 下 ， 流 出 速率 与 流入 速率 是 一 样 的 。 如 果 有 
一 个 消费 者 客户 端 从 集群 读 取 所 有 的 消息 ， 那 么 流出 速率 会 是 流入 速率 的 2 


倍 。 如 果 不 知道 这 一 点 ， 光 是 看 着 这 些 指标 就 会 感到 很 疑惑 。 


5. 主题 流入 的 消息 




















之 前 介绍 的 字 节 速率 以 字 节 的 方式 来 表示 broker 的 流量 ， 而 消息 速率 则 以 每 秒 生成 消息 个 
数 的 方式 来 表示 流量 ， 而 且 不 考虑 消息 的 大 小 。 这 也 是 一 个 很 有 用 的 生产 者 流量 增长 规模 
度量 指标 。 它 也 可 以 与 字 市 速率 一 起 用 于 计算 消息 的 平均 大 小 。 与 字 方 速率 一 样 ， 该 指标 
也 能 反映 集群 的 不 均衡 情况 。 表 10-7 给 出 了 详细 信息 。 

表 10-7: 主题 流入 消息 度量 指标 


度量 指标 名 称 ”Message in per second 











JMX MBean kafka.server:type=BrokerTopicMetrics ,name=MessagesInPerSec 


值 区 间 速率 为 双 精 度 浮 点 数 ， 计 数 为 整数 


为 什么 没有 消息 的 流出 速率 





经 常会 有 人 问 ， 为 什么 没有 broker 的 “流出 消息 ”度量 指标 ?因为 在 消息 被 
读 取 时 ，broker 将 整个 消息 批 次 发 送 给 消费 者 ， 并 没有 展开 批 次 ， 也 就 不 会 
去 计算 每 个 批 次 包含 了 多 少 个 消息 ， 所 以 ，broker 也 就 不 知道 发 送 了 多 少 个 
消息 。broker 为 此 提供 了 一 个 度量 指标 叫 作 每 秒 获取 次 数 ， 它 指 的 是 请 求 速 
率 ， 而 不 是 消息 个 数 。 











6. 分 区 数量 


broker 的 分 区 数量 一 般 不 会 经 常 发 生 改变 ， 它 是 指 分 配给 broker 的 分 区 总 数 。 它 包括 
broker 的 每 一 个 分 区 副本 ， 不 管 是 首领 还 是 跟随 者 。 如 果 一 个 集群 启用 了 自动 创建 主题 的 
功能 ， 那 么 监控 这 个 度量 指标 会 变 得 很 有 意思 ， 因 为 你 会 发 现 ， 这 样 可 以 让 主题 的 创建 游 
离 于 控制 之 外 。 表 10-8 给 出 了 详细 信息 。 
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表 10-8: 分 区 数量 度量 指标 

度量 指标 名 称 Partition count 

JMX MBean kafka.server:type=ReplicaManager ,name=PartitionCount 

值 区 间 非 负 整 数 

7. 首领 数量 

该 度量 指标 表示 broker 拥有 的 首领 分 区 数量 。 与 broker 的 其 他 度量 一 样 ， 该 度量 指标 也 应 
该 在 整个 集群 的 broker 上 保持 均等 。 我 们 需要 对 该 指标 进行 周期 性 地 检查 ， 并 适时 地 发 出 
告警 ， 即 使 在 副本 的 数量 和 大 小 看 起 来 都 很 完美 的 时 候 ， 它 仍然 能 够 显示 出 集群 的 不 均衡 
问题 。 因 为 broker 有 可 能 出 于 各 种 原因 释放 掉 一 个 分 区 的 首领 身份 ， 比 如 Zookeeper 会 话 
过 期 ， 而 在 会 话 恢 复 之 后 ， 这 个 分 区 并 不 会 自动 拿 回 首领 身份 (除非 启用 了 自动 首领 再 均 
衡 功 能 )。 在 这 些 情况 下 ， 该 度量 指标 会 显示 较 少 的 首领 分 区 数 ， 或 者 直接 显示 为 零 。 这 
个 时 候 需 要 运行 一 个 默认 的 副本 选举 ， 重 新 均衡 集群 的 首领 。 表 10-9 给 出 了 详细 信息 。 
表 10-9， 首领 数量 度量 指标 

度量 指标 名 称 Leader count 


JMX MBean kafka. server :type=ReplicaManager ,name=LeaderCount 

值 区 间 非 负 整数 

可 以 使 用 该 指标 与 分 区 数量 一 起 计算 出 broker 首领 分 区 的 百分比 。 一 个 均衡 的 集群 ， 如 果 
它 的 复制 系数 为 2， 那 么 所 有 的 broker 都 应 该 差不多 是 它们 的 50% 分 区 的 首领 。 如 果 复 制 
系数 是 3， 这 个 百分比 应 该 降 到 33% 。 

8. 离线 分 区 

与 非 同步 分 区 数量 一 样 ， 离 线 分 区 数量 也 是 一 个 关键 的 度量 指标 〈 表 10-10)。 该 度量 只 能 
由 集群 控制 器 提供 (对 于 其 他 broker 来 说 ， 该 指标 的 值 为 零 ) ， 它 显示 了 集群 里 没有 首领 
的 分 区 数量 。 发 生 这 种 情况 主要 有 两 个 原因 。 
。 包含 分 区 副本 的 所 有 broker 都 关闭 了 。 

。 由 于 消息 数量 不 匹配 ， 没 有 同步 副本 能 够 拿 到 首领 身份 〈 并 且 禁 用 了 不 完全 首领 选举 ) 。 
表 10-10: 离线 分 区 数量 度量 指标 

度量 指标 名 称 ”Offline partiions count 

JMX MBean kafka.controller:type=KafkaController ,name=0fflinePartiionsCount 

值 区 间 非 负 整数 

在 一 个 生产 环境 Kafka 集群 里 ， 离 线 分 区 会 影响 生产 者 客户 端 ， 导 致 消息 丢失 ,或 者 造成 
回 压 。 这 属于 “站 点 宕 机 ”问题 ， 需 要 立即 解决 。 

9. 请 求 度量 指标 

第 5 章 描述 了 Kafka 协议 ， 它 有 多 种 不 同 的 请 求 ， 每 种 请 求 都 有 相应 的 度量 指标 。 以 下 的 
请 求 类 型 都 有 相应 的 度量 指标 。 

。 ApiVersions 

。 ControlledShutdown 
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。 (CreateTopics 

。 DeleteTopics 

。 DescribeGroups 
。 Fetch 

。 FetchConsumer 
。 FetchFollower 


。 GroupCoordinator 


。 Heartbeat 

。 JoinGroup 

。 LeaderAndIsr 
。 LeaveGroup 

。 ListGroups 

。 Metadata 

。 OffsetCommit 
。 OffsetFetch 

。 Offsets 

。 Produce 

。 SasLHandshake 
。 StopReplica 

。 SyncGroup 

。 UpdateMetadata 


每 一 种 请 求 类 型 都 有 8 个 度量 指标 ， 它 们 分 别 体现 了 不 同 请 求 处 理 阶段 的 细节 。 例 如 ， 
Fetch 请 求 有 如 表 10-11 所 示 的 度量 指标 。 


表 10-11: 请 求 度量 指标 





名 字 JMX MBean 

Total Time kafka.network:type=RequestMetrics,name=TotalTimeMs ,request=Fetch 

Request Queue Time kafka.network:type=RequestMetrics ,name=RequestQueueTimeMs ,request=Fetch 
Local Time kafka.network:type=RequestMetrics,name=LocalTimeMs ,request=Fetch 

Remote Time kafka.network:type=RequestMetrics,name=RemoteTimeMs ,request=Fetch 
Throttle Time kafka.network:type=RequestMetrics,name=ThrottleTimeMs ,request=Fetch 
Response Queue Time ”kafka.network:type=RequestMetrics ,name=ResponseQueueTimeMs ,request=Fetch 
Response Send Time kafka.network:type=RequestMetrics ,name=ResponseSendTimeMs ,request=Fetch 
Requests Per Second kafka.network:type=RequestMetrics ,name=RequestsPerSec,request=Fetch 


Request Per Second 是 一 个 速 





表 10-11 中 的 7 个 tme 指标 分 别 为 请 求 提 供 了 一 组 百分比 数值 以 及 一 个 离散 的 Count 属 


性 ， 类 似 于 速率 度量 指标 。 
长 时 间 没 有 变化 的 度量 指标 时 ， 请 记 住 : broker 代理 运行 的 时 间 越 长 ， 数 据 就 越 稳定 。 它 





率 指标 ， 前 面 已 经 介绍 过 它 的 属性 ， 这 些 属性 显示 了 在 单位 时 
间 内 收 到 并 处 理 的 请 求 个 数 。 该 度量 提供 了 每 种 请 求 类 型 的 频 度 ， 尽 管 很 多 请 求 类 型 都 不 
是 很 频繁 发 生 ， 比 如 | 和 UpdateMetadata。 


这 些 指标 都 是 自 broker 启动 以 来 开始 计算 的 ， 所 以 在 查看 那些 








加 


归 





| 恬 














们 所 代表 的 请 求 处 理 的 部 分 如 下 。 
Total Time 


表示 broker 花 在 处 理 请 求 上 的 时 间 ， 从 收 到 请 求 开 始 计算 ， 直 到 将 响应 返回 给 请 求 者 。 


Request Queue Time 

表示 请 求 停留 在 队列 里 的 时 间 ， 从 收 到 请 求 开始 计算 ， 直 到 开始 处 理 请 求 。 
Local Time 

表示 首领 分 区 花 在 处 理 请 求 上 的 时 间 ， 包 括 把 消息 写 入 磁盘 (但 不 一 定 要 冲刷 )。 
Remote Time 

表示 在 请 求 处 理 完毕 之 前 ， 用 于 等 待 跟随 者 的 时 间 。 
Throttle Time 

表示 暂时 搁置 响应 的 时 间 ， 以 便 拖 慢 请 求 者 ， 把 它们 限定 在 客户 端的 配额 范围 内 。 
Response Queue Time 

表示 响应 被 发 送 给 请 求 者 之 前 停留 在 队列 里 的 时 间 。 
Response Send Time 

表示 实际 用 于 发 送 响应 的 时 间 。 
每 个 度量 指标 的 属性 如 下 。 


百 分 位 
SOthpercentile、 75thpercentile、 95thpercentile、98thPpercentile、99thpercentile、 
999thPercentiLLe。 























Count 
从 broker 启动 至 今 处 理 的 请 求 数量 。 
Min 
所 有 请 求 的 最 小 值 。 
Max 
所 有 请 求 的 最 大 值 。 
Mean 
所 有 请 求 的 平均 值 。 
StdDev 
整体 的 请 求 时 间 标 准 偏差 。 
什么 是 百 分 位 
百 分 位 是 一 种 常见 的 时 间 度 量 方式 ， 尽 管 它们 容易 被 人 误解 。 一 个 99 百 分 位 
度量 表示 ， 整 组 取样 (这 里 指 请 求 时 间 ) 里 有 99% 的 值 小 于 度量 指标 的 值 ， 


也 就 是 说 ， 有 1% 的 值 大 于 指标 的 值 。 一 般 情况 下 需要 查看 平均 值 为 99% 或 
99.9% 的 数值 ， 这 样 就 可 以 分 辨 出 哪些 是 平均 的 请 求 ， 哪 些 是 异样 的 请 求 。 
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在 这 些 指标 和 属性 中 ， 哪 些 对 于 监控 来 说 是 比较 重要 的 ? 我 们 至 少 要 收集 Total Time 和 
Requests Per Second 的 平均 值 及 较 高 的 百 分 位 〈99% 或 99.9% ) ， 这 样 就 可 以 获知 发 送 请 求 
的 整体 性 能 。 如 果 有 可 能 ， 尽 量 为 每 一 种 请 求 类 型 收集 其 他 6 种 时 间 度 量 指标 ， 这 样 就 可 
以 将 性 能 问题 细 分 到 请 求 的 各 个 阶段 。 

为 时 间 度 量 指标 设 定 告警 国 值 有 一 定 的 难度 。 例 如 ，fetch 请 求 时 间 受 各 种 因素 的 影响 ， 
包括 客户 端 等 待 消息 的 时 间 、 主 题 的 繁忙 程度 ， 以 及 客户 端 和 broker 之 间 的 网 络 连接 速 
度 。 不 过 ， 对 于 Produce 请 求 来 说 ， 可 以 为 Total Time 设 定 99.9% 百 分 位 度量 基线 值 。 
与 非 同 步 分 区 类 似 ，Produce 请 求 的 99.9% 百 分 位 数值 快速 增长 说 明 出 现 了 大 规模 的 性 
能 问题 。 


10.2.3 ”主题 和 分 区 的 度量 指标 


broker 的 度量 指标 描述 了 broker 的 一 般 行 为 ， 除 此 之 外 ， 还 有 很 多 主题 实例 和 分 区 实例 的 
度量 指标 。 在 大 型 的 集群 里 ， 这 样 的 度量 指标 会 有 很 多 ， 一 般 情况 下 ， 不 太 可 能 将 它们 
全 部 收集 到 一 个 度量 指标 系统 里 。 不 过 ， 我 们 可 以 用 它们 来 调试 与 客户 端 相关 的 问题 。 例 
如 ， 主 题 的 度量 指标 可 以 用 于 识别 出 造成 集群 流量 大 量 增长 的 主题 。 我 们 需要 提供 这 些 度 
量 指标 ， 这 样 Kafka 的 生产 者 和 消费 者 就 可 以 使 用 它们 。 不 管 是 否 会 收集 这 些 度量 指标 ， 
都 有 必要 知道 它们 的 用 处 。 

表 10-12 中 所 列 的 度量 指标 将 使 用 主题 名 称 “TOPICNAME”， 分 区 ID 为 0。 在 实际 中 ， 
要 把 主题 名 称 和 分 区 ID 替换 成 自己 的 名 称 和 ID。 

1. 主题 实例 的 度量 指标 

主题 实例 的 度量 指标 与 之 前 描述 的 broker 度量 指标 非常 相似 。 事 实 上， 它们 之 间 唯 一 的 区 
别 在 于 这 里 指定 了 主题 名 称 ， 也 就 是 说 ， 这 些 度量 指标 属于 某 个 指定 的 主题 。 主 题 实例 的 
度量 指标 数量 取决 于 集群 主题 的 数量 ， 而 且 用 户 极 有 可 能 不 会 监控 这 些 度 量 指标 或 设置 告 
警 。 它 们 一 般 提供 给 客户 端 使 用 ， 客 户 端 依 此 评估 它们 对 Kafka 的 使 用 情况 ， 并 进行 问题 
调试 。 

表 10-12: 主题 实例 的 度量 指标 
















































































名 字 JMX MBean 

Bytes in rate kafka.server:type=BrokerTopicMetrics ,name=BytesInPerSec ,topic=TOPICNAME 

Bytes out rate kafka.server:type=BrokerTopicMetrics ,name=BytesOutPerSec ,topic=TOPICNAME 

Failed fetch rate kafka.server:type=BrokerTopicMetrics ,name=FaitLedFetchRequestsPerSec ,topic=TOPICNAME 


Failed produce rate kafka.server:type=BrokerTopicMetrics ,name=FailedProduceRequestsPerSec ,topic=TOPICNAME 
Messages in rate kafka.server:type=BrokerTopicMetrics ,name=MessagesInPerSec,topic=TOPICNAME 
Fetch request rate kafka. server :type=BrokerTopicMetrics ,name=TotalFetchRequestsPerSec, topic=TOPICNAME 


Produce request rate “kafka.server:type=BrokerTopicMetrics,name=TotaLProduceRequestsPerSec,topic=TOPICNAME 
[Sm 蛙 收 村 
2. 分 区 实例 的 度量 指标 


分 区 实例 的 度量 指标 不 如 主题 实例 的 度量 指标 那样 有 用 。 另 外 ， 它 们 的 数量 会 更 加 庞大 ， 
因为 几 百 个 主题 就 可 能 包含 数 千 个 分 区 。 不 过 不 管 怎样 ， 在 某 些 情况 下 ， 它 们 还 是 有 一 
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定 用 处 的 。Partition size 度量 指标 表示 分 区 当前 在 磁盘 上 保留 的 数据 量 ( 见 表 10-13)。 如 
果 把 它们 组 合 在 一 起 ， 就 可 以 表示 单个 主题 保留 的 数据 量 ， 作 为 客户 端 配额 的 依据 。 同 一 
个 主题 的 两 个 不 同 分 区 之 间 的 数据 量 如 果 存 在 差异 ,说 明 消 息 并 没有 按照 生产 消息 的 键 
进行 均匀 分 布 。Log segment count 指标 表示 保存 在 磁盘 上 的 日 志 片 段 的 文件 数量 ， 可 以 与 
Partition size 指标 结合 起 来 ， 用 于 跟踪 资源 的 使 用 情况 。 


表 10-13: 分 区 实例 的 度量 指标 

















名 称 JMX MBean 
Partition Size kafka.log:type=Log,name=Size, topic=TOPICNAME ,partition=0 


Log segment count kafka.log:type=Log,name=NumLogSegments,topic=TOPICNAME ,partition=0 
Log end offset kafka. log:type=Log,name=LogEndOffset, topic=TOPICNAME ,partition=0 


Log start offset kafka. log:type=Log,name=LogStartOffset, topic=TOPICNAME ,partition=0 





Log end offset 和 Log start offset 这 两 个 度量 指标 分 别 表示 消息 的 最 大 偏 移 量 和 最 小 偏 移 量 。 
不 过 需要 注意 的 是 ， 不 能 用 这 两 个 指标 来 推算 分 区 的 消息 数量 ， 因 为 日 志 压 缩 会 导致 偏 移 
量 “ 丢 失 ”， 比 如 包含 相同 键 的 新 消息 会 覆盖 掉 旧 消息 。 不 过 它们 在 某 些 情况 下 还 是 很 有 
用 的 ， 比 如 在 进行 时 间 惟 和 偏 移 量 映射 时 ， 就 可 以 得 到 更 精确 的 映射 ， 消 费 者 客户 端 因 此 
可 以 很 容易 地 回 滚 到 与 某 个 时 间 点 相对 应 的 偏 移 量 (尽管 可 能 没有 Kafka 0.10.1 里 引入 的 
基于 时 间 的 索引 搜索 那么 重要 )。 


非 同步 分 区 度量 指标 

在 分 区 实例 的 度量 指标 中 ， 有 一 个 指标 用 于 表示 分 区 是 否 处 于 非 同 步 状 态 。 
一 般 情况 下 ， 该 指标 对 于 日 常 的 运 维 起 不 到 太 大 作用 ， 因 为 这 类 指标 太 多 
了 。 可 以 直接 监控 broker 的 非 同 步 分 区 数量 ， 然 后 使 用 命令 行 工具 (参见 第 
9 章 ) 确定 哪些 分 区 处 于 非 同步 状态 。 












































10.2.4” Java 虚拟 机 监控 


除了 broker 的 度量 指标 外 ， 还 应 该 对 服务 器 提供 的 一 些 标准 度量 进行 监控 ， 包 括 Java 虚拟 
机 (JVM)。 如 果 JVM 频繁 发 生 垃 圾 回收 ， 就 会 影响 broker 的 性 能 ， 在 这 种 情况 下 ， 就 应 
该 得 到 告警 。JVM 的 度量 指标 还 能 告诉 我 们 为 什么 broker 下 游 的 度量 指标 会 发 生变 化 。 

1. 垃圾 回收 

对 于 JVM 来 说 ， 最 需要 监控 的 是 垃圾 回收 (GC) 的 状态 。 需 要 监控 哪些 MBean 取决 于 具 
体 的 Java 运行 时 (JRE) 和 垃圾 回收 器 的 设置 。 如 果 JRE 使 用 了 Oracle Java 1.8， 并 使 用 
了 G1 垃圾 回收 器 ， 那 么 需要 监控 的 MBean 如 表 10-14 所 示 。 


表 10-14: G1 垃圾 回收 器 度量 指标 




















名 称 JMX MBean 
Full GC cycles java.Lang:type=GarbageCoLLector ,name=G1 0Ld Generation 
Yong GC cycles java. lang:type=GarbageCollector ,name=G1 Young Generation 
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在 垃圾 回收 语义 里 ，Old 和 Full 的 意思 是 一 样 的 。 我 们 需要 监控 这 两 个 指标 的 Collection 
Count 和 CoLLectionTime 属性 。CollectionCount 表示 从 JVM 启动 开始 算 起 的 垃圾 回收 次 
数 ，CollectionTime 表示 从 JVM 启动 开始 算 起 的 垃圾 回收 时 间 ， 以 ms 为 单位 。 因 为 这 些 
属性 是 计数 器 ， 所 以 它们 可 以 告诉 我 们 发 生 GC 的 次 数 和 花费 在 GC 上 的 时 间 ， 还 可 以 用 
于 计算 平均 每 次 GC 花费 的 时 间 ， 不 过 在 通常 的 运 维 中 ， 这 样 做 并 没有 多 大 用 处 。 

这 些 指标 还 有 一 个 LastGcInfo 属性 。 这 是 一 个 由 5 个 字段 组 成 的 组 合 值 ， 用 于 提供 最 后 一 
次 GC 的 信息 。 其 中 最 重要 的 一 个 值 是 duration 值 ， 它 以 ms 为 单位 ， 展 示 最 后 一 次 GC 
花费 的 时 间 。 其 他 几 个 值 (GcThreadCount、id、startTime 和 endTime) 虽然 也 会 提供 一 些 
信息 ， 但 用 处 不 大 。 不 过 要 注意 的 是 ， 我 们 无 法 通过 该 属性 查看 到 每 一 次 GC 的 信息 ， 因 
为 年 轻 代 GC 发 生得 很 频繁 。 

2. Java 操作 系统 监控 

JVM 通过 java.lang:type=0peratingSysten 提供 了 一 些 操作 系统 的 信息 ， 不 过 这 些 指 标 
的 信息 量 很 有 限 ， 并 不 能 告知 操作 系统 的 完整 状况 。 这 些 指标 有 两 个 比较 有 用 但 在 操 
作 系 统 里 难以 收集 到 的 属性 MaxFileDescriptorCount 和 OpenFileDescriptorCount。 
MaxFileDescriptorCount 展示 JVM 能 够 打开 的 文件 描述 符 (FD) 数量 的 最 大 值 ，0pen 
FileDescriptorCount 展示 目前 已 经 打开 的 文件 描述 符 数量 。 每 个 日 志 片 段 和 网 络 连 接 都 会 
打开 一 个 文件 描述 符 ， 所 以 它们 的 数量 增长 得 很 快 。 如 果 网 络 连 接 不 能 被 正常 关闭 ， 那 么 
broker 很 快 就 会 把 文件 描述 符 用 完 。 


10.2.5 ”操作 系统 监控 


JVM 并 不 能 告诉 用 户 所 有 与 操作 系统 有 关 的 信息 ， 因 此 ， 用 户 不 仅 要 收集 broker 的 度量 指 
标 ， 也 需要 收集 操作 系统 的 度量 指标 。 大 多 数 监控 系统 都 会 提供 代理 ， 用 于 收集 更 多 有 关 
操作 系统 的 信息 。 用 户 需 要 监控 CPU 的 使 用 、 内 存 的 使 用 、 磁 盘 的 使 用 、 磁 盘 IO 和 网 络 
的 使 用 情况 。 
在 CPU 方面 ， 需 要 监控 平均 系统 负载 。 系 统 负载 是 一 个 独立 的 数值 ， 它 展示 处 理 器 的 相 
对 使 用 情况 。 另 外 ， 根 据 类 型 来 捕捉 CPU 的 使 用 百分比 也 是 很 有 用 的 。 根 据 收集 方法 和 
操作 系统 的 不 同 ， 可 以 使 用 如 下 列 出 的 CPU 百分比 数值 (使 用 了 缩写 )， 既 可 以 使 用 其 中 
的 一 部 分 ， 也 可 以 使 用 全 部 。 
US 

用 户 空 间 使 用 的 时 间 。 


sy 





























































































































内 核 空间 使 用 的 时 间 。 
ni 

低 优 先 级 进程 使 用 的 时 间 。 
id 

空闲 时 间 。 
wa 


磁盘 等 待 时 间 。 
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理 硬 件 中 断 的 时 间 。 


si 





处 理 软件 中 断 的 时 间 。 











等 待 管理 程序 的 时 间 。 
什么 是 系统 负载 


尽管 很 多 人 都 知道 系统 负载 是 对 CPU 使 用 情况 的 度量 ， 但 他 们 并 不 知道 度 
量 是 如 何 进 行 的 。 平 均 负载 是 指 等 待 处 理 器 执行 的 线程 数 。 在 Linux 系统 
里 ， 它 还 包括 处 于 不 可 中 断 睡 眠 状态 的 线程 ， 比 如 磁盘 等 待 。 负 载 使 用 3 个 
数值 来 表示 ， 分 别 是 前 1 分 钟 的 平均 值 ， 前 5 分 钟 的 平均 值 和 前 15 分 钟 的 
平均 值 。 在 单 CPU 系统 里 ， 数 值 1 表示 系统 负载 达到 了 100%， 此 时 总 会 存 
在 一 个 等 待 执 行 的 线程 。 而 在 多 CPU 系统 里 ， 如 果 负 载 达到 100%， 那 么 负 
载 的 数值 与 CPU 的 核 数 相等 。 例 如 ， 如 果 系 统 里 有 24 个 处 理 器 ， 那 么 负载 
100% 表示 负载 数值 为 24。 






































对 于 broker 来 说 ， 跟 踪 CPU 的 使 用 情况 是 很 有 必要 的 ， 因 为 它们 在 处 理 请 求 时 使 用 了 大 
量 的 CPU 时 间 。 而 内 存 使 用 情况 的 跟踪 就 显得 没有 那么 重要 了 ， 因 为 运行 Kafka 并 不 需 
要 太 大 的 内 存 。 它 会 使 用 堆 外 的 一 小 部 分 内 存 来 实现 压缩 功能 ， 其 余 大 部 分 内 存 则 用 于 组 
存 。 不 过 ， 我 们 还 是 要 对 内 存 使 用 情况 进行 跟踪 ， 确 保 其 他 的 应 用 不 会 影响 到 broker。 可 
以 通过 监控 总 内 存 空 间 和 可 用 交换 内 存 空 间 来 确保 内 存 交 换 空 间 不 会 被 占用 。 

对 于 Kafka 来 说 ， 磁 盘 是 最 重要 的 子 系统 。 所 有 的 消息 都 保存 在 磁盘 上 ， 所 以 Kafka 的 性 
能 严重 依赖 磁盘 的 性 能 。 我 们 需要 对 磁盘 空间 和 索引 市 点 进行 监控 ， 确 保 磁盘 空间 不 会 被 
用 光 。 对 于 保存 数据 的 分 区 来 说 就 更 是 如 此 。 对 磁盘 IO 进行 监控 也 是 很 有 必要 的 ， 它 们 
揭示 了 磁盘 的 运行 效率 。 我 们 需要 监控 磁盘 的 每 秒 种 读 写 速度 、 读 写 平均 队列 大 小 、 平 均 
等 待 时 间 和 磁盘 的 使 用 百分比 。 


最 后 ， 还 需要 监控 broker 的 网 络 使 用 情况 。 简 单 地 说 ， 就 是 指 流入 和 流出 的 网 络 流量 ， 一 
般 使 用 b/s 来 表示 。 要 记 住 ， 在 没有 消费 者 时 ，1 个 流入 比特 对 应 1 个 或 多 个 流出 比特 ， 
这 个 数字 与 主题 的 复制 系数 相等 。 根 据 消 费 者 的 实际 数量 ， 流 入 流量 很 容易 比 输出 流量 高 
出 一 个 数量 级 。 在 设置 告警 国 值 时 要 切记 这 一 点 。 
































10.2.6 日 志 


在 讨论 监控 时 ， 如 有 果 不 涉及 日 志 ， 那 么 这 个 监控 就 是 不 完整 的 。 与 其 他 应 用 程序 一 样 ， 
Kafka 的 broker 也 可 以 被 配置 成 定期 向 磁盘 写 和 人 日志。 为 了 能 够 从 日 志 里 获得 有 用 的 信 
息 ， 选 择 合适 的 日 志和 日 志 级 别 是 很 重要 的 。 通 过 记录 INFO 级 别 的 日 志 ， 可 以 捕捉 到 
很 多 有 关 broker 运行 状态 的 重要 信息 。 为 了 获得 一 系列 清晰 的 日 志文 件 ， 很 有 必要 对 日 
志 进 行 分 类 。 
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可 以 考虑 使 用 两 种 日 志 。 第 一 种 是 kafka.controller， 可 以 将 它 设 置 为 INF0 级 别 。 这 个 日 志 
用 于 记录 集群 控制 器 的 信息 。 在 任何 时 候 ， 集 群 里 都 具有 一 个 控制 器 ， 因 此 只 有 一 个 broker 
会 使 用 这 个 日 志 。 日 志 里 包含 了 主题 的 创建 和 修改 操作 、broker 状态 的 变更 ， 以 及 集群 的 活 
动 ， 比 如 默认 的 副本 选举 和 分 区 的 移动 。 另 一 个 日 志 是 kafka.server.CLientQuotaManager， 
也 可 以 将 它 设置 为 INF0 级 别 。 这 个 日 志 用 于 记录 与 生产 和 消费 配额 活动 相关 的 信息 。 因 为 
这 些 信息 很 有 用 ， 所 以 最 好 不 要 把 它们 记录 在 broker 的 主 日 志文 件 里 。 


在 调试 问题 时 ， 还 有 一 些 日 志 也 很 有 用 ， 比 如 kafka.request.Logger， 可 以 将 它 设 置 为 
DEBUG 或 TRACE 级 别 。 这 个 日 志 包 含 了 发 送 给 broker 的 每 一 个 请 求 的 详细 信息 。 如 果 日 志 
级 别 被 设置 为 DEBuUG6， 那 么 它 将 包含 连接 端点 、 请 求 时 间 和 概要 信息 。 如 果 日 志 级 别 被 设 
置 为 TRACE， 那么 它 将 包含 主题 和 分 区 的 信息 ， 以 及 除 消 息 体 之 外 的 所 有 与 请 求 相 关 的 信 
息 。 不 管 被 设置 成 什么 级 别 ， 这 个 日 志 会 产生 大 量 的 数据 ， 所 以 如 果 不 是 出 于 调试 的 目 
的 ， 不 建议 启用 这 个 日 志 。 

日 志 压 缩 线 程 的 运行 状态 也 是 一 个 有 用 的 信息 。 不 过 ， 这 些 线程 并 没有 单独 的 度量 指标 ， 
一 个 分 区 的 压缩 失败 有 可 能 造成 压缩 线程 的 整体 月 滥 ， 而 且 是 悄然 发 生 的 。 启 用 kafka. 
log.LogCleaner、kafka.log.Cleaner 和 kafka.Log.LogCLeanerManager 这 些 日 志 ， 并 把 它们 
设置 为 DEBUG 级 别 ， 就 可 以 输出 日 志 压 缩 线程 的 运行 状态 。 这 些 日 志 包 含 了 每 个 被 压缩 分 
区 的 大 小 和 消息 个 数 。 一 般 情况 下 ， 这 些 日 志 的 数量 不 会 很 大 。 也 就 是 说 ， 默 认 启 用 这 些 
日 志 并 不 会 带 来 什么 麻烦 。 


10.3 客户 端 监控 


所 有 的 应 用 程序 都 需要 监控 ， 包 括 那 些 使 用 了 Kafka 客户 端的 应 用 程序 。 不 管 是 生产 者 还 
是 消费 者 ， 它 们 都 有 特定 的 度量 指标 需要 监控 。 本 节 将 主要 介绍 如 何 监控 官方 的 Java 客户 
端 ， 其 他 第 三 方 的 客户 端 应 该 也 有 自己 的 度量 指标 。 


10.3.1 生产 者 度量 指标 

新 版 本 Kafka 生产 者 客户 端的 度量 指标 经 过 调整 变 得 更 加 简洁 ， 只 用 了 少量 的 MBean。 相 
反 ， 之 前 版 本 的 客户 端 (不 再 受 支 持 的 版 本 ) 使 用 了 大 量 的 MBean， 而 且 度 量 指标 包含 了 
大 量 的 细节 (提供 了 大 量 的 百 分 位 和 各 种 移动 平均 数 )。 这 些 度 量 指标 提供 了 很 大 的 覆盖 
面 ， 但 这 样 会 让 跟踪 异常 情况 变 得 更 加 困难 。 
生产 者 度量 指标 的 MBean 名 字 里 都 包含 了 生产 者 的 客户 端 ID。 在 下 面 的 示例 里 ， 客 户 端 
ID 使 用 CLIENTID 表示 ，broker ID 使 用 BROKERID 表示 ， 主 题 的 名 字 使 用 TOPICNAME 表示 ， 
如 表 10-15 所 示 。 


表 10-15: Kafka 生 产 者 度量 指标 MBean 
名 称 JMX MBean 


Overall producer kafka.producer :type=producer -metrics,client-id=CLIENTID 














































































































Per-broker kafka.producer :type=producer -node-metrics,client-id=CLIENTID,node-id=node-BROKERID 


Per-topic kafka.producer :type=producer -topic-metrics,client-id=CLIENTID, topic=TOPICNAME 
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上 表 中 列 出 的 每 一 个 MBean 都 有 多 个 属性 用 于 描述 生产 者 的 状态 。 下 面 列 出 了 用 处 最 大 
的 几 个 属性 。 在 继续 了 解 这 些 属性 之 前 ， 建 议 先 通过 阅读 第 3 章 了 解 生产 者 的 工作 原理 。 


1. 生产 者 整体 度量 指标 


生产 者 整体 度量 指标 提供 的 属性 描述 了 生产 者 各 个 方面 的 信息 ， 从 消息 批 次 的 大 小 到 内 
存 缓冲 区 的 使 用 情况 。 虽 然 这 些 度量 在 调试 的 时 候 很 有 用 ， 不 过 在 实际 应 用 中 只 会 用 到 
少数 的 几 个 ， 而 在 这 几 个 度量 里 ， 也 只 有 一 部 分 需要 进行 监控 和 告警 。 下 面 将 讨论 一 些 
平均 数 度量 指标 (以 -avg 结尾 )， 它 们 都 有 相应 的 最 大 值 (以 -max 结尾 ) ， 不 过 这 些 最 
大 值 的 用 处 很 有 限 。 


record-error-rate 是 一 个 完全 有 必要 对 其 设置 告警 的 属性 。 这 个 指标 的 值 一 般 情 况 下 都 
是 零 ， 如 果 它 的 值 比 零 大 ,说 明生 产 者 正在 丢弃 无 法 发 送 的 消息 。 生 产 者 配置 了 重 试 次 
数 和 回 退 策略 ， 如 果 重 试 次 数 达 到 了 上 限 ， 消 息 (记录 ) 就 会 被 丢弃 。 我 们 可 以 跟踪 另 
外 一 个 属性 record-retry-rate， 不 过 该 属性 不 如 record-error-rate 那么 重要 ， 因 为 重 
试 是 很 正常 的 行为 。 

我 们 可 以 对 request-latency-avg 设置 告警 ， 它 表示 发 送 一 个 生产 者 请 求 到 broker 所 需要 
的 平均 时 间 。 在 运 维 过 程 中 ， 应 该 为 该 指标 建立 一 个 基线 ， 并 设 定 告警 国 值 。 请 求 延 迟 的 
增加 说 明生 产 者 请 求 正 在 变 慢 。 有 可 能 是 网 络 出 现 了 问题 ， 也 有 可 能 是 broker 出 现 了 问 
题 。 不 管 是 哪 一 种 情况 ， 都 会 导致 生产 者 端 发 生 回 压 ， 并 引发 应 用 程序 的 其 他 问题 。 

除了 这 些 关键 性 的 度量 指标 外 ， 如 果 能 够 知道 生产 者 发 送 的 消息 流量 就 更 好 了 。 有 3 个 属 
性 提供 了 3 个 不 同 的 视图 : outgoing-byte-rate 表示 每 秒 钟 消息 的 字 布 数 ，record-send- 
rate 表示 每 秒 钟 消息 的 数量 ，request-rate 表示 每 秒 钟 生产 者 发 送 给 broker 的 请 求 数 。 单 
个 请 求 可 以 包含 一 个 或 多 个 批 次 ， 单 个 批 次 可 以 包含 一 个 或 多 个 消息 ， 每 个 消息 由 多 个 字 
节 组 成 。 把 这 些 指标 显示 在 仪表 盘 上 ， 可 以 跟踪 到 生产 者 是 如 何 使 用 Kafka 的 。 






























































为 什么 不 使 用 ProducerRequestMetrics 


ProducerRequestMetrics MBean 提供 了 请 求 延 迟 的 百 分 位 和 请 求 速率 的 移动 
平均 数 ， 但 为 什么 不 建议 使 用 呢 ? 问题 在 于 ， 这 个 度量 指标 是 为 每 个 生产 者 
线程 提供 的 。 如 果 应 用 程序 出 于 性 能 方面 的 考虑 ， 使 用 了 多 个 生产 者 线程 ， 
那么 就 很 难 对 这 些 指标 进行 聚合 。 所 以 ， 使 用 生产 者 整体 指标 所 提供 的 属性 
是 一 种 更 为 有 效 的 方式 。 


























可 以 借助 一 些 度量 指标 来 更 好 地 理解 字 节 、 记 录 、 请 求 和 批 次 之 间 的 关系 ， 这 些 指标 描述 
了 这 些 实体 的 大 小 。request-size-avg 表示 生产 者 发 送 请 求 的 平均 字 节 数 ，batch-size- 
avg 表示 单个 消息 批 次 (根据 定义 ， 批 次 包含 了 属于 同一 个 分 区 的 多 个 消息 ) 的 平均 字 节 
数 ，record-size-avg 表示 单个 消息 的 平均 字 节 数 。 对 于 单 主题 的 生产 者 来 说 ， 它 们 提供 了 
有 关 生 产 消息 的 有 用 信息 。 而 对 于 多 主题 的 生产 者 来 说 ， 比 如 MirrorMaker， 它 们 提供 的 
信息 就 不 是 很 有 用 。 除 了 这 3 个 指标 外 ， 还 有 另外 一 个 指标 records-per-request-avg， 它 
表示 在 生产 者 的 单个 请 求 里 所 包含 的 消息 平均 个 数 。 


最 后 一 个 值得 推荐 的 指标 是 record-queue-time-avg， 它 表示 消息 在 发 送 给 Kafka 之 前 在 生 
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产 者 客户 端 等 待 的 平均 毫秒 数 。 应 用 程序 在 使 用 生产 者 客户 端 发 送 消息 (调用 send 方法 ) 
之 后 ， 生 产 者 会 一 直 等 待 ， 直到 以 下 任 一 情况 发 生 。 


。 生产 者 客户 端 有 足够 多 的 消息 来 填充 批 次 (根据 max.partition.bytes 的 配置 )。 
。 距离 上 一 次 发 送 批 次 已 经 有 足够 长 的 时 间 (根据 Linger .ms 的 配置 )。 


这 两 种 情况 都 会 促使 生产 者 客户 端 关闭 当前 批 次 ， 然 后 把 它 发 送 给 broker。 
主题 来 说 ， 一 般 会 发 生 第 一 种 情况 ， 而 对 于 比较 慢 的 主题 来 说 ， 一 般 会 发 生 第 二 种 情 ? 
record-queue-time-avg 用 于 度量 生产 消息 所 使 用 的 时 间 ， 因 此 ， 了 
数 来 满足 应 用 程序 的 延迟 需求 。 


2. Per-broker 和 Per-topic 度量 指标 


除了 生产 者 整体 的 度量 指标 外 ， 还 有 一 些 MBean 为 每 个 broker 连接 和 每 个 主题 提供 了 有 
限 的 属性 集合 。 在 调试 问题 时 ， 这 些 度量 会 很 有 用 ， 但 不 建议 对 它们 进行 es 这 
些 MBean 属性 的 命名 与 整体 度量 指标 的 命名 是 一 样 的 ， 所 表示 的 含义 也 是 一 样 的 (只 

过 它们 是 作用 在 特定 的 broker 或 特定 的 主题 上 )。 


在 broker 实例 的 度量 指标 里 ，request-latency-avg 是 比较 有 用 的 一 个 ， 因 为 它 一 般 比 较 稳 
定 (在 消息 批 次 比较 稳定 的 情况 下 )， 而 且 能 够 显示 broker 的 连接 问题 。 其 他 的 属性 ， 比 
如 outgoing-byte-rate 和 request-Latency-avg， 它 们 会 因为 broker 所 包含 分 区 的 不 同 而 有 
所 不 同 。 也 就 是 说 ， 这 些 度量 会 随 着 时 间 发 生变 化 ， 完 全 取决 于 集群 的 状态 。 

主题 实例 的 度量 指标 比 broker 实例 的 度量 指标 要 有 趣 得 多 ， 不 过 只 有 在 使 用 多 主题 的 生 
产 者 时 ， 它 们 才能 派 上 用 场 。 当 然 ， 也 只 有 在 生产 者 不 会 消费 过 多 主题 的 情况 下 ， 才 有 必 
要 对 这 些 指标 进行 常规 的 监控 。 例 如 ， MtoeMaber 有 可 能 会 向 成 百 上 千 的 主题 生成 消息 。 
我 们 无 法 逐个 检查 这 些 指 标 ， 也 几乎 不 可 能 为 它们 设置 合理 的 告警 国 值 。 与 broker 实例 
的 度量 指标 一 样 ， 主 题 实例 的 度量 指标 一 般 用 于 诊断 问题 。 例 如 ， 可 以 通过 record-send- 
rate 和 record-error-rate 这 两 个 属性 将 丢弃 的 消息 隔离 到 特定 的 主题 上 。 另 外 ，byte- 
rate 表示 主题 整体 的 每 秒 消 息 字 节 数 。 


10.3.2 ”消费 者 度量 指标 


与 新 版 本 的 生产 者 客户 端 类 似 ， 新 版 本 的 消费 者 客户 端 将 大 量 的 度量 指标 属性 塞 进 了 少数 
的 儿 个 MBean 里 ， 如 表 10-6 所 示 。 消 费 者 客户 端 也 作出 了 权衡 ， 去 掉 了 延迟 百 分 位 和 速 
率 移动 平均 数 。 因 为 消费 者 读 取 消息 的 逻辑 比 生 产 者 发 送 消 息 的 逻辑 复杂 ， 所 以 消费 者 的 
度量 指标 也 会 更 多 。 具 体 请 参考 表 10-16。 


表 10-16: Kafka 消 费 者 度量 指标 MBean 
名 称 JMX MBean 


Overall consumer kafka.consumer :type=consumer -metrics,client-id=CLIENTID 













































































Fetch manager kafka.consumer :type=consumer -fetch-manager -metrics,client-id=CLIENTID 

Per-topic kafka.consumer :type=consumer -fetch-manager -metrics,client-id=CLIENTID, topic=TOPICNAME 
Per-broker kafka.consumer :type=consumer -node-metrics,client-id=CLIENTID,node-id=node-BROKERID 
Coordinator kafka.consumer :type=consumer -coordinator -metrics,client-id=CLIENTID 
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1. Fetch Manager 度量 指标 

在 消费 者 客户 端 ， 消 费 者 整体 度量 指标 MBean 的 用 处 不 是 很 大 ， 因 为 有 用 的 指标 都 聚集 
在 Fetch Manager MBean 里 。 消 费 者 MBean 包含 了 与 网 络 底 层 运 行情 况 有 关 的 指标 ， 而 
Fetch Manager MBean 则 包含 了 与 字 节 、 请 求 和 消息 速率 有 关 的 指标 。 与 生产 者 客户 端 不 
同 的 是 ， 用 户 可 以 查看 消费 者 所 提供 的 度量 指标 ， 但 对 它们 设置 告警 是 没有 意义 的 。 

对 于 Fetch Manager 来 说 ，fetch-Latency-avg 可 能 是 一 个 需要 对 其 进行 监控 和 设置 告警 的 
指标 。 与 生产 者 的 request-latency-avg 类 似 ， 该 指标 表示 从 消费 者 向 broker 发 送 请 求 所 
需要 的 上 时间。 请 求 的 延迟 通过 消费 者 的 fetch.min.bytes 和 fetch.max.wait.ms 这 两 个 参数 
进行 控制 。 一 个 缓慢 的 主题 会 出 现 不 稳定 的 延迟 ， 有 时 候 broker 响应 很 快 (有 可 用 消息 的 
时 候 )， 有 时 候 甚 至 无 法 在 fetch.max.wait.ms 规定 的 时 间 内 完成 响应 (没有 可 用 消息 的 时 
候 )。 如 果 主 题 有 相对 稳定 和 足够 的 消息 流量 ， 那 么 查看 这 个 指标 或 许 会 更 有 意义 。 


为 什么 不 用 延 时 (Lag) 


我 们 建议 对 所 有 消费 者 的 延 时 情况 进行 监控 ,但 为 什么 不 建议 对 Fetch 
Manager 的 records-lag-max 属性 进行 监控 呢 ? 该 属性 表示 落后 最 多 的 分 区 
的 延 时 情况 (落后 broker 的 消息 数量 )。 

这 里 有 两 方面 的 原因 : 一 方面 是 因为 它 只 显示 了 单个 分 区 的 延 时 ， 另 一 方面 
是 因为 它 依赖 消费 者 的 某 些 特定 功能 。 如 果 疫 有 其 他 的 选择 ， 那 么 可 以 考虑 
将 该 属性 作为 度量 延 时 的 指标 ， 并 为 其 设置 告警 。 不 过 ， 最 佳 实践 应 该 是 使 
用 外 部 的 延 时 监控 ， 稍 后 会 介绍 更 多 的 内 容 。 




































































要 想 知 道 消费 者 客户 端 处 理 了 多 少 消息 流量 ， 可 以 使 用 bytes-consumed-rate 或 records- 
consumed-rate， 或 者 同时 使 用 它们 两 个 。 它 们 分 别 表示 客户 端 每 秒 读 取 的 消息 字 节 数 和 每 
秒 读 取 的 消息 个 数 。 有 些 人 为 它们 设置 了 最 小 值 告 警 闽 值 ， 当 消费 者 工作 负载 不 足 时 ， 他 
们 就 会 收 到 告警 。 不 过 需要 注意 的 是 ， 销 费 者 和 生产 者 之 间 是 没有 耦合 的 ， 因 此 不 能 从 消 
费 者 端 去 推测 生产 者 端的 行为 模式 。 

Fetch Manager 也 提供 了 一 些 度量 指标 ， 有 助 于 理解 字 节 、 消 息 和 请 求 之 间 的 关系 。fetch- 
rate 表示 消费 者 每 秒 发 出 请 求 的 数量 ，fetch-size-avg 表示 这 些 请 求 的 平均 字 节 数 ， 
records-per-request-avg 表示 每 个 请 求 的 平均 消息 个 数 。 要 注意 的 是 ， 消 费 者 并 没有 提供 
与 生产 者 相对 应 的 record-size-avg， 所 以 无 法 知道 消息 的 平均 大 小 。 如 果 这 个 很 重要 ， 那 
么 可 以 参考 其 他 指标 ， 或 者 在 应 用 程序 接收 到 消息 之 后 计算 出 消息 的 平均 大 小 。 

2. Per-broker 和 Per-topic 度量 指标 

与 生产 者 客户 端 类 似 ， 消 费 者 客户 端 也 为 每 个 broker 连接 和 每 个 主题 提供 了 很 多 度量 指 
标 ， 它 们 可 以 用 于 诊断 问题 ， 但 不 建议 对 它们 进行 常规 的 监控 。 与 Fetch Manager 一 样 ， 
broker 的 request-latency-avg 属性 用 处 也 很 有 限 ， 它 取决 于 主题 的 消息 流量 。incoming- 
byte-rate 和 request-rate 分 别 表示 broker 每 秒 读 取 的 消息 字 石 数 和 每 秒 请 求 数 。 它 们 可 
以 用 于 诊断 消费 者 与 broker 之 间 的 连接 问题 。 
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在 读 取 多 个 主题 时 ， 消 费 者 客户 端 所 提供 的 主题 实例 的 度量 指标 会 很 有 用 。 如 果 只 是 读 
取 单 个 主题 ， 那 么 这 些 指标 就 与 Fetch Manager 的 指标 一 样 ， 没 有 必要 去 收集 它们 。 但 
如 果 客 户 端 读 取 了 大 量 的 主题 ， 比 如 MirrorMaker， 那 么 查看 这 些 指标 就 会 变 得 很 困难 。 
如 果 打 算 收集 这 些 指标 ， 可 以 考虑 收集 最 重要 的 3 个 : bytes-consumed-rate、records- 
consumed-rate 和 fetch-size-avg。bytes-consumed-rate 表示 从 某 个 主题 上 每 秒 读 取 的 消 
息 字 节 数 ，records-consumed-rate 表示 每 秒 读 取 的 消息 个 数 ，fetch-size-avg 表示 每 个 请 
求 的 消息 平均 字 市 数 。 

3. Coordinator 度量 指标 

正如 第 4 章 所 述 ， 消 费 者 客户 端 以 群 组 的 方式 运行 。 群 组 里 会 发 生 一 些 需要 协调 的 活动 ， 
比如 新 成 员 的 加 入 或 者 向 broker 发 送 心 跳 来 保持 群 组 的 成 员 关 系 。 消 费 者 协调 器 负责 处 理 
这 些 协调 工作 ， 作 为 消费 者 客户 端的 组 成 部 分 ， 它 也 维护 着 自己 的 一 组 度量 指标 。 与 其 他 
度量 指标 一 样 ，Coordinator 度量 指标 也 提供 了 很 多 数字 ， 但 是 其 中 只 有 关键 的 一 小 部 分 需 
要 进行 常规 的 监控 。 

消费 者 群 组 在 进行 同步 时 ， 可 能 会 造成 消费 者 的 停顿 。 当 群 组 里 的 消费 者 在 协商 哪些 分 区 
应 该 由 哪些 消费 者 来 读 取 时 ， 就 会 发 生 这 种 情况 。 停 顿 的 时 间 长 短 取决 于 分 区 的 数量 。 协 
调 器 提供 了 sync-time-avg 属性 ， 用 于 表示 同步 活动 所 使 用 的 平均 毫秒 数 。sync-rate 属性 
也 很 有 用 ， 表 示 每 秒 钟 群 组 发 生 的 同步 次 数 。 对 于 一 个 稳定 的 消费 者 群 组 来 说 ， 这 个 数字 
在 多 数 时 候 都 是 零 。 


消费 者 需要 通过 提交 偏 移 量 来 作为 读 取 进度 的 检查 点 ， 消 费 者 可 以 基于 固定 时 间 间 隔 自 动 
提交 偏 移 量 ， 也 可 以 通过 应 用 程序 代码 手动 提交 偏 移 量 。 提 交 偏 移 量 也 是 一 种 生成 消息 的 
请 求 (不 过 它们 有 自己 的 请 求 类 型 )， 提 交 的 偏 移 量 就 是 消息 ， 并 被 生成 到 一 个 特定 的 主 
题 上 。 协 调 器 提供 了 commit-tLatency-avg 属性 ， 表 示 提 交 偏 移 量 所 需要 的 平均 时 间 。 与 生 
产 者 里 的 请 求 延 时 一 样 ， 我 们 也 需要 监控 该 指标 ， 为 它 设 定 一 个 预期 的 基线 ， 并 设置 合理 
的 告警 国 值 。 
Coordinator 度量 指标 的 最 后 一 个 属性 是 assigned-partitions， 表 示 分 配给 消费 者 客户 端 
( 群 组 里 的 单个 实例 ) 的 分 区 数量 。 该 属性 之 所 以 有 用 ， 是 因为 可 以 通过 在 整个 群 组 内 比 
较 各 个 实例 的 值 ， 从 而 知道 群 组 的 负载 是 否 均衡 。 我 们 可 以 使 用 该 属性 来 识别 因 协 调 器 的 
分 区 分 配 算 法 所 导致 的 负载 不 均衡 问题 。 











































































































10.3.3 配额 

Kafka 可 以 对 客户 端的 请 求 进行 限 流 ， 防 止 客户 端 拖 垮 整个 集群 。 对 于 消费 者 和 生产 者 客 
户 端 来 说 ， 这 都 是 可 配 的 ， 可 以 使 用 每 秒 钟 允 许 单个 客户 端 访 问 单个 broker 的 流量 字 节 数 
来 表示 。 它 有 一 个 broker 级 别 的 默认 值 ， 客 户 端 可 以 对 其 进行 覆盖 。 当 broker 发 现 客户 端 
的 流量 已 经 超出 配额 时 ， 它 就 会 暂缓 向 客户 端 返回 响应 ， 等 待 足 够 长 的 时 间 ， 直 到 客户 端 
流量 降 到 配额 以 下 。 


broker 并 不 会 在 响应 消息 里 提供 客户 端 被 限 流 的 错误 码 ， 也 就 是 说 ， 对 于 应 用 程序 来 说 ， 
如 果 不 监控 这 些 指标 ， 可 能 就 不 知道 发 生 了 限 流 。 需 要 监控 的 指标 如 表 10-17 所 示 。 
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表 10-17， 需 要 监控 的 度量 指标 
客户 端 MBean 
消费 者 kafka.consumer :type=consumer -fetch-manager -metrics,client-id=CLIENTID 的 属性 fetch-throttle-time-avg 








生产 者 kafka.producer :type=producer -metrics,client-id=CLIENTID 的 属性 produce-throttle-time-avg 


默认 情况 下 ，broker 不 会 开启 配额 功能 。 不 过 不 管 有 没有 使 用 配额 ， 监 控 这 些 指标 总 是 没 
有 问题 的 。 况 且 ， 它 们 有 可 能 在 未 来 某 个 时 刻 被 启用 ， 而 且 从 一 开始 就 监控 它们 要 比 在 后 
期 添加 更 加 容易 。 


10.4 延 时 监控 


对 于 消费 者 来 说 ， 最 需要 被 监控 的 指标 是 消费 者 的 延 时 。 它 表示 分 区 最 后 一 个 消息 和 消费 
者 最 后 读 取 的 消息 之 间 相 差 的 消息 个 数 。 在 之 前 的 小 市 里 已 经 说 过 ， 在 这 里 ， 使 用 外 部 监 
控 要 比 使 用 客户 端 自己 的 监控 好 得 多 。 虽 然 消 费 者 提供 了 延 时 指标 ， 但 该 指标 存在 一 个 问 
题 ， 它 只 表示 单个 分 区 的 延 时 ， 也 就 是 具有 最 大 延 时 的 那个 分 区 ， 所 以 它 不 能 准确 地 表示 
消费 者 的 延 时 。 男 外 ， 它 需要 消费 者 做 一 些 额 外 的 操作 ， 因 为 该 指标 是 由 消费 者 对 每 个 发 
出 的 请 求 进行 计算 得 出 的 。 如 果 消 费 者 发 生 朋 涡 或 者 离线 ， 那 么 该 指标 要 么 不 准确 ， 要 么 
不 可 用 。 

监控 消费 者 延 时 最 好 的 办 法 是 使 用 外 部 进程 ， 它 能 够 观察 broker 的 分 区 状态 ， 跟 踪 最 近 消 
息 的 偏 移 量 ， 也 能 观察 消费 者 的 状态 ， 跟 踪 消 费 者 提交 的 最 新 偏 移 量 。 这 种 方式 提供 了 一 
种 持续 更 新 的 客观 视图 ， 而 且 不 依赖 消费 者 的 状态 。 我 们 需要 在 每 一 个 分 区 上 进行 这 种 检 
查 。 对 于 大 型 消费 者 来 说 ， 比 如 MirrorMaker， 可 能 意味 着 要 监控 成 千 上 万 个 分 区 。 


第 9 章 介绍 过 如 何 使 用 命令 行 工具 获取 消费 者 群 组 的 信息 ， 包 括 提 交 的 偏 移 量 和 延 时 。 如 
果 直 接 监 控 由 工具 提供 的 延 时 信息 ， 会 存在 一 些 问 题 。 首 先 ， 需 要 为 每 个 分 区 定义 合理 的 
延 时 。 每 小 时 接收 100 个 消息 的 主题 和 每 秒 钟 接收 10 万 个 消息 的 主题 ， 它 们 的 国 值 是 不 
一 样 的 。 其 次 ， 必 须 能 够 将 延 时 指标 导入 到 监控 系统 ， 并 为 它们 设置 告警 。 如 果 有 一 个 消 
费 者 群 组 读 取 了 1500 个 主题 ， 这 些 主题 的 分 区 数量 超过 了 10 万 个 ， 那 将 是 一 项 令 人 望 而 
生 恨 的 任务 。 


可 以 使 用 Burrow 来 完成 这 项 工作 。Burrow 是 一 个 开源 的 应 用 程序 ， 最 初 由 LinkedIn 开 
发 。 它 收集 集群 消费 者 群 组 的 信息 ， 并 为 每 个 群 组 计算 出 一 个 单独 的 状态 ， 告 诉 我 们 群 组 
是 否 运行 正常 、 是 否 落 后 、 速 度 是 否 变 慢 或 者 是 否 已 经 停止 工作 ， 以 此 来 完成 对 消费 者 状 
态 的 监控 。 它 不 需要 通过 监控 群 组 的 进度 来 获得 闷 值 ， 不 过 用 户 仍然 可 以 从 中 获得 消息 的 
延 时 数量 。LinkedIn 工程 博客 上 记录 了 有 关 Burrow 工作 原理 的 讨论 。Burrow 可 以 用 于 监 
控 集 群 所 有 的 消费 者 ， 也 可 以 用 于 监控 多 个 集群 ， 而 且 可 以 很 容易 被 集成 到 现 有 的 监控 和 


告警 系统 里 。 


如 果 没 有 其 他 选择 ， 消 费 者 客户 端的 records-1ag-max 指标 提供 了 有 关 消 费 者 状态 的 部 分 
视图 。 不 过 ,仍然 强烈 建议 使 用 像 Burrow 这 样 的 外 部 监控 系统 。 





































































































182 | 第 10 章 


10.5 “” 端 到 端 监控 


我 们 推荐 使 用 的 另 一 种 外 部 监控 系统 是 端 到 端的 监控 系统 ， 它 为 Kafka 集群 的 健康 状态 提 
供 了 一 种 客户 端 视图 。 消 费 者 和 生产 者 客户 端 有 一 些 度 量 指标 能 够 说 明 集群 可 能 出 现 了 
问题 ， 但 这 里 有 猜想 的 成 分 ， 因 为 延 时 的 增加 有 可 能 是 由 客户 端 、 网 络 或 Kafka 本 身 引 起 
的 。 另 外 ， 用 户 原本 的 工作 可 能 只 是 管理 Kafka 集群 ， 但 现在 也 需要 监控 客户 端 。 现 在 只 
需要 回答 以 下 两 个 简单 的 问题 。 


。 可 以 向 Kafka 集群 生成 消息 吗 ? 

。 可 以 从 Kafka 集群 读 取 消息 吗 ? 

理想 情况 下 ， 用 户 可 能 会 希望 每 一 个 主题 都 允许 这 些 操 作 ， 但 要 为 此 向 每 一 个 主题 注入 人 
为 的 流量 是 不 合理 的 。 所 以 ， 可 以 考虑 是 否 每 个 broker 都 允许 这 些 操作 ， 而 这 正 是 Kafka 
Monitor 要 做 的 事情 。 该 工具 由 LinkedIn 的 Kafka 团队 开发 并 开源 ， 它 持续 地 向 一 个 横 跨 
集群 所 有 broker 的 主题 生成 消息 ， 并 读 取 这 些 消息 。 它 对 每 个 broker 的 生产 请 求 和 读 取 请 
求 的 可 用 性 进行 度量 ， 包 括 从 生产 到 读 取 的 整体 延 时 。 这 种 类 型 的 监控 对 于 验证 Kafka 集 
群 的 运行 状态 来 说 是 非常 有 价值 的 ， 因 为 Kafka broker 本 身 无 法 告知 客户 端 是 否 能 够 正常 
使 用 集群 。 


10.6 ”总结 


监控 是 运行 Kafka 的 一 个 重要 组 成 部 分 ， 这 也 是 为 什么 有 那么 多 的 团队 在 这 上 面 花费 了 那 
么 多 时 间 。 很 多 组 织 使 用 Kafka 处 理 千 万 亿 字 节 级 别 的 数据 流 。 确 保 数据 的 持续 性 和 不 丢 
失 消息 是 一 个 关键 性 的 业务 需求 。 作 为 Kafka 集群 的 运 维 人 员 ， 我 们 的 目标 是 成 为 最 了 解 
集群 状态 的 人 。 同 时 ， 要 协助 用 户 监控 他 们 的 应 用 程序 。 

本 章 介 绍 了 如 何 监控 Java 应 用 程序 ， 特 别 是 Kafka 应 用 程序 。 首 先 介绍 了 broker 的 一 些 度 
量 指标 ， 接 着 介绍 了 Java 和 操作 系统 的 监控 以 及 日 志 ， 然 后 详细 地 介绍 了 Kafka 客户 端的 
监控 ， 包 括 配额 的 监控 ， 最 后 讨论 了 如 何 使 用 外 部 监控 系统 进行 消费 者 延 时 监控 以 及 如 何 
进行 端 到 端的 集群 可 用 性 监控 。 本 章 虽 然 没 有 列 出 所 有 可 用 的 度量 指标 ， 但 已 经 涵盖 了 最 
为 关键 的 部 分 。 
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第 11 章 


流 式 处 理 








Kafka 一 般 被 认为 是 一 个 强大 的 消息 总 线 ， 可 以 传递 事件 流 ， 但 没有 处 理 和 转换 事件 的 
能 力 。Kafka 可 靠 的 传递 能 力 让 它 成 为 流 式 处 理 系统 完美 的 数据 来 源 。 很 多 基于 Kafka 构 
建 的 流 式 处 理 系统 都 将 Kafka 作为 唯一 可 靠 的 数据 来 源 ， 如 Apache Storm、Apache Spark 
Streaming、Apache Flink、Apache Samza 等 。 


有 时 候 ， 行 业 分 析 师 声称 这 些 流 式 处 理 系 统 与 那些 已 经 存在 了 二 十 多 年 的 复杂 事件 处 理 
(CEP) 系统 没有 什么 两 样 。 但 是 流 式 处 理 系 统 却 很 成 功 ， 而 只 有 密室 可 数 的 系统 在 采用 
CEP， 他 们 为 此 感到 很 惊讶 。 笔 者 认为 ，CEP 的 主要 问题 在 于 缺少 事件 流 的 处 理 能 
随 着 Kafka 越 来 越 流行 ， 最 初 作为 简单 的 消息 总 线 ， 后 来 成 为 一 种 数据 集成 系统 。 很 多 
公司 的 系统 里 都 包含 了 大 量 有 价值 的 数据 流 ， 它 们 井然 有 序 地 存在 了 很 长 时 间 ， 好 像 在 
等 待 一 个 流 式 处 理 框 架 的 出 现 。 换 句 话 说 ， 在 出 现 数据 库 之 前 ， 数 据 的 处 理 是 一 项 艰巨 
的 任务 。 类 似 地 ， 因 为 缺少 能 够 提供 可 靠 存 储 和 集成 的 流 式 平台 ， 流 式 处 理 的 发 展 也 受 
到 了 阻碍 。 


从 0.10.0 版 本 开始 ，Kafka 不 仅 为 每 一 个 流行 的 流 式 处 理 框 架 提 供 了 可 靠 的 数据 来 源 ， 还 
提供 了 一 个 强大 的 流 式 处 理 类 库 ， 并 将 其 作为 客户 端 类 库 的 一 部 分 。 这 样 ， 开 发 人 员 就 可 
以 在 应 用 程序 里 读 取 、 处 理 和 生成 事件 ， 而 不 需要 再 依赖 外 部 的 处 理 框 架 。 

本 章 将 以 解释 什么 是 流 式 处 理 作为 开头 (因为 这 个 术语 经 常 被 人 误解 )， 然 后 讨论 流 式 处 
理 的 一 些 基本 概念 和 流 式 处 理 系 统 常 用 的 设计 模式 ， 然 后 深入 介绍 Kafka 的 流 式 处 理 类 
库 ， 包 括 它 的 目标 和 架构 ， 接 着 将 会 给 出 一 个 示例 ， 介 绍 如 何 使 用 Kafka Streams (以 下 简 
称 Streams) 来 计算 股价 移动 平均 数 ， 最 后 讨论 流 式 处 理 的 其 他 使 用 场景 ， 并 在 结束 部 分 
列 出 为 Kafka 选择 流 式 处 理 框 架 (如 果 有 的 话 ) 的 参考 标准 。 本 章 主要 是 简单 地 介绍 流 式 
处 理 ， 并 不 会 涵盖 Streams 的 每 一 个 特性 ， 也 不 会 对 每 一 个 现 有 的 流 式 处 理 框架 进行 比较 ， 
因为 光 这 些 内 容 就 可 以 单独 写成 一 本 甚至 好 几 本 书 了 。 
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11.1 什么 是 流 式 处 理 


人 们 对 流 式 处 理 的 理解 非常 混乱 。 因 为 有 太 多 关于 流 式 处 理 的 定义 ， 它 们 混淆 了 实现 细 
节 、 性 能 需求 、 数 据 模型 和 软件 工程 的 各 个 方面 。 笔 者 亲眼 目睹 了 发 生 在 关系 型 数据 库 上 
的 类 似 窘境 ， 关 系 模型 的 抽象 定义 总 是 夹杂 了 数据 库 引擎 的 实现 细节 和 特定 局 限 性 。 


流 式 处 理 领域 还 处 在 发 展 阶 段 ， 有 一 些 流行 的 实现 方案 ， 其 处 理 方式 可 能 很 特别 ， 或 者 有 

特定 的 局 限 ， 但 这 并 不 能 说 明 它 们 的 实现 细 市 就 是 流 式 处 理 固有 的 组 成 部 分 。 

先 来 看 看 什么 是 数据 流 (也 被 称 为 “事件 流 ” 或 “ 流 数 据 ”)。 首 先 ， 数 据 流 是 无 边界 数据 

集 的 抽象 表示 。 无 边界 意味 着 无 限 和 持续 增长 。 无 边界 数据 集 之 所 以 是 无 限 的 ， 是 因为 随 

着 时 间 的 推移 ， 新 的 记录 会 不 断 加 入 进来 。 这 个 定义 已 经 被 包括 Google 和 Amazon 在 内 的 

大 部 分 公司 所 采纳 。 

这 个 简单 的 模型 (事件 流 ) 可 以 表示 很 多 业务 活动 ， 比 如 信用 卡 交 易 、 股 票 交 易 、 包 囊 

递送 、 流 经 交换 机 的 网 络 事件 、 制 造 商 设备 传感器 发 出 的 事件 、 发 送出 去 的 邮件 、 游 戏 

里 物体 的 移动 ， 等 等 。 这 个 清单 是 无 穷 无 尽 的 ， 因 为 几乎 每 一 件 事 情 都 可 以 被 看 成 事件 

的 序列 。 

除了 没有 边界 外 ， 事 件 流 模型 还 有 其 他 一 些 属性 。 

事件 流 是 有 序 的 

事件 的 发 生 总 是 有 个 先后 顺序 。 以 金融 活动 事件 为 例 ， 先 将 钱 存 进账 户 后 再 花 钱 ， 这 与 
先 花 钱 再 还 钱 的 次 序 是 完全 不 一 样 的 。 后 者 会 出 现 透支 ， 而 前 者 不 会 。 这 是 事件 流 与 数 
据 库 表 的 不 同 点 之 一 。 数 据 库 表 里 的 记录 是 无 序 的 ， 而 SQL 语法 中 的 order by 并 不 是 
关系 模型 的 组 成 部 分 ， 它 是 为 了 报表 查询 而 添加 的 。 

不 可 变 的 数据 记录 

事件 一 旦 发 生 ， 就 不 能 被 改变 。 一 个 金融 交易 被 取消 ， 并 不 是 说 它 就 消失 了 ， 相 反 ， 这 

需要 往事 件 流 里 添加 一 个 额外 的 事件 ， 表 示 前 一 个 交易 的 取消 操作 。 顾 客 的 一 次 退货 并 

不 意味 着 之 前 的 销售 记录 被 删除 ， 相 反 ， 退 货 行 为 被 当成 一 个 额外 的 事件 记录 下 来 。 这 

是 数据 流 与 数据 表 之 间 的 另 一 个 不 同 点 可 以 删除 和 修改 数据 表 里 的 记录 ， 但 这 些 操 

作 只 不 过 是 发 生 在 数据 库 里 的 事务 ， 这 些 事 务 可 以 被 看 成 事件 流 。 假 设 你 对 数据 库 的 二 

进 制 日 志 (bin log)、 预 写 式 日 志 (WAL) 和 重 做 日 志 (redo log) 的 概念 都 很 熟悉 ， 那 

么 就 会 知道 ， 如 果 往 数据 库 表 插入 一 条 记录 ， 然 后 将 其 删除 ， 表 里 就 不 会 再 有 这 条 记 

录 。 但 重 做 日 志 里 包含 了 两 个 事务 : 插入 事务 和 删除 事务 。 


事件 流 是 可 重播 的 
这 是 事件 流 非常 有 价值 的 一 个 属性 。 用 户 可 以 很 容易 地 找 出 那些 不 可 重播 的 流 〈 流 经 
套 接 字 的 TCP 数据 包 就 是 不 可 重播 的 )， 但 对 于 大 多 数 业务 来 说 ， 重 播发 生 在 几 个 月 
前 〈 甚 至 几 年 前 ) 的 原始 事件 流 是 一 个 很 重要 的 需求 。 可 能 是 为 了 尝试 使 用 新 的 分 析 方 
法 纠正 过 去 的 错误 ， 或 是 为 了 进行 审计 。 这 也 就 是 为 什么 我 们 相信 Kafka 能 够 让 现代 业 
务 领域 的 流 式 处 理 大 获 成 功 一 一 可 以 借助 Kafka 来 捕捉 和 重播 事件 流 。 如 果 没 有 这 项 能 
力 ， 流 式 处 理 充其量 只 是 数据 科学 实验 室 里 的 一 个 玩具 而 已 。 
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如 果 事 件 疲 的 定义 里 没有 提 到 事件 所 包含 的 数据 和 每 秒 钟 的 事件 数量 ， 那 么 它 就 变 得 毫 无 
意义 。 不 同系 统 之 间 的 数据 是 不 一 样 的 ， 事件 可 以 很 小 (有 时 候 只 有 几 个 字 市 )， 也 可 以 
很 大 (包含 很 多 消息 头 的 XML 消息 ) ， 它 们 可 以 是 完全 非 结构 化 的 键 值 对 ， 可 以 是 半 结 构 
化 的 JSON， 也 可 以 是 结构 化 的 Avro 或 Protobuf。 虽 然 数 据 流 经 常 被 视 为 “大 数据 ”， 并 
且 包 含 了 每 秒 钟 数 百 万 的 事件 ， 不 过 这 里 所 讨论 的 技术 同样 适用 (通常 是 更 加 适用 ) 于 小 
一 点 的 事件 流 ， 可 能 每 秒 钟 甚至 每 分 钟 只 有 几 个 事件 。 


知道 什么 是 事件 流 以 后 ， 是 时 候 了 解 “ 流 式 处 理 ” 的 真正 含义 了 。 流 式 处 理 是 指 实时 地 处 
理 一 个 或 多 个 事件 流 。 流 式 处 理 是 一 种 编程 范式 ， 就 像 请 求 与 响应 范式 和 批 处 理 范 式 那 
样 。 下 面 将 对 这 3 种 范式 进行 比较 ， 以 便 更 好 地 理解 如 何在 软件 架构 中 应 用 流 式 处 理 。 


请 求 与 响应 
这 是 延迟 最 小 的 一 种 范式 ， 响 应 时 间 处 于 亚 毫 秒 到 毫秒 之 间 ， 而 且 响 应 时 间 一 般 非 常 稳 
定 。 这 种 处 理 模式 一 般 是 阻塞 的 ， 应 用 程序 向 处 理 系统 发 出 请 求 ， 然 后 等 待 响应 。 在 数 
据 库 领 域 ， 这 种 范式 就 是 线 上 交易 处 理 (OLTP)。 销 售 点 (POS) 系统 、 信 用 卡 处 理 系 
统 和 基于 时 间 的 追踪 系统 一 般 都 使 用 这 种 范式 。 


批 处 理 
这 种 范式 具有 高 延迟 和 高 吞吐 量 的 特点 。 处 理 系统 按照 设 定 的 时 间 局 动 处 理 进程 ， 比 如 
每 天 的 下 午 两 点 开始 启动 ， 每 小 时 启动 一 次 等 。 它 读 取 所 有 的 输入 数据 (从 上 一 次 执行 
之 后 的 所 有 可 用 数据 ， 或 者 从 月 初 开始 的 所 有 数据 等 )， 输 出 结果 ， 然 后 等 待 下 一 次 局 
动 。 处 理 时 间 从 几 分 钟 到 几 小 时 不 等 ， 并 且 用 户 从 结果 里 读 到 的 都 是 旧 数 据 。 在 数据 库 
领域 ， 它 们 就 是 数据 仓库 (DWH) 或 商业 智能 (BI) 系统 。 它 们 每 天 加 载 巨 大 批 次 的 
数据 ， 并 生成 报表 ， 用 户 在 下 一 次 加 载 数据 之 前 看 到 的 都 是 相同 的 报表 。 从 规模 上 来 
说 ， 这 种 范式 既 高 效 又 经 济 。 但 在 近 几 年 ， 为 了 能 够 更 及 时 、 高 效 地 作出 决策 ， 业 务 要 
求 在 更 短 的 时 间 内 能 提供 可 用 的 数据 ， 这 就 给 那些 为 探索 规模 经 济 而 开发 却 无 法 提供 低 
延迟 报表 的 系统 带 来 了 巨大 的 压力 。 

流 式 处 理 
这 种 范式 介 于 上 述 两 者 之 间 。 大 部 分 的 业务 不 要 求 亚 毫秒 级 的 响应 ， 不 过 也 接受 不 了 要 
等 到 第 二 天 才 知 道 结 果 。 大 部 分 业务 流程 都 是 持续 进行 的 ， 只 要 业务 报告 保持 更 新 ， 业 
务 产品 线 能 够 持续 响应 ， 那 么 业务 流程 就 可 以 进行 下 去 ， 而 无 需 等 待 特定 的 响应 ， 也 不 
要 求 在 几 毫 秒 内 得 到 响应 。 一 些 业 务 流程 具有 持续 性 和 非 阻 塞 的 特点 ， 比 如 针对 可 疑 信 
用 卡 交易 的 警告 、 网 络 警告 、 根 据 供应 关系 实时 调整 价格 、 跟 踪 包 衷 。 

流 的 定义 不 依赖 任何 一 个 特定 的 框架 、API 或 特性 。 只 要 持续 地 从 一 个 无 边界 的 数据 集 读 

取 数 据 ， 然后 对 它们 进行 处 理 并 生成 结果 ， 那 就 是 在 进行 流 式 处 理 。 重 点 是 ， 整 个 处 理 过 

程 必须 是 持续 的 。 一 个 在 每 天 凌晨 两 点 启动 的 流程 ， 从 流 里 读 取 500 条 记录 ， 生 成 结果 ， 

然后 结束 ， 这 样 的 流程 不 是 流 式 处 理 。 


11.2 流 式 处 理 的 一 些 概念 


流 式 处 理 的 很 多 方面 与 普通 的 数据 处 理 是 很 相似 的 : 写 一 些 代码 来 接收 数据 ， 对 数据 进行 
处 理 ， 可 能 做 一 些 转 换 、 聚 合 和 增强 的 操作 ， 然 后 把 生成 的 结果 输出 到 某 个 地 方 。 不 过 流 
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式 处 理 有 一 些 特 有 的 概念 ， 对 于 那些 有 数据 处 理 经 验 但 是 首次 尝试 开发 流 式 处 理应 用 程序 
的 人 来 说 ,很 容易 造成 混淆 。 下 面 将 试 着 河清 这 些 概念 。 


11.2.1 时 间 


时 间或 许 就 是 流 式 处 理 最 为 重要 的 概念 ， 也 是 最 让 人 感到 困惑 的 。 在 讨论 分 布 式 系统 时 ， 

该 如 何 理解 复杂 的 时 间 概 念 ? 推荐 阅读 Justin Sheehy 的 论文 “There is No Now”。 在 流 式 

处 理 里 ， 时 间 是 一 个 非常 重要 的 概念 ， 因 为 大 部 分 流 式 应 用 的 操作 都 是 基于 时 间 窗 口 的 。 

例如 ， 流 式 应 用 可 能 会 计算 股价 的 5 分钟 移动 平均 数 。 如 果 生 产 者 因为 网 络 问 题 离线 了 2 

小 时 ， 然 后 带 着 2 小 时 的 数据 重新 连 线 ， 我 们 需要 知道 该 如 何 处 理 这 些 数据 。 这 些 数据 大 

部 分 都 已 经 超过 了 5 分钟， 而 且 没 有 参与 之 前 的 计算 。 

流 式 处 理 系统 一 般 包 含 如 下 几 个 时 间 概 念 。 

事件 时 间 

事件 时 间 是 指 所 追踪 事件 的 发 生 时 间 和 记录 的 创建 时 间 。 例 如 ， 度 量 的 获取 时 间 、 商 店 
里 商品 的 出 售 时 间 、 网 站 用 户 访问 网 页 的 时 间 ， 等 等 。 在 Kafka 0.10.0 和 更 高 版 本 里 ， 
生产 者 会 自动 在 记录 中 添加 记录 的 创建 时 间 。 如 果 这 个 时 间 玲 与 应 用 程序 对 “事件 时 
间 ” 的 定义 不 一 样 ， 例 如 ，Kafka 的 记录 是 基于 事件 发 生 后 的 数据 库 记 录 创 建 的 ， 那 就 
需要 自己 设置 这 个 时 间 惟 字段 。 在 处 理 数据 流 时 ， 事 件 时 间 是 很 重要 的 。 

日 志和 追加 时 间 
日 志 追 加 时 间 是 指 事件 保 存 到 broker 的 时 间 。 在 Kafka 0.10.0 和 更 高 版 本 里 ， 如 果 启 用 
了 自动 添加 时 间 惟 的 功能 ， 或 者 记录 是 使 用 旧版 本 的 生产 者 客户 端 生成 的 ， 而 且 没 有 包 

含 时 间 惟 ， 那 么 broker 会 在 接收 这 些 记录 时 自动 添加 时 间 惟 。 这 个 时 间 惟 一 般 与 流 式 

处 理 没 有 太 大 关系 ， 因 为 用 户 一 般 只 对 事件 的 发 生 时 间 感 兴趣 。 例 如 ， 如 果 要 计算 每 天 

生产 了 多 少 台 设备 ， 就 需要 计算 在 那 一 天 实际 生产 的 设备 数量 ， 尽 管 这 些 事 件 有 可 能 因 
为 网 络 问题 到 了 第 二 天 才 进 入 Kafka。 不 过 ， 如 果真 实 的 事件 时 间 没 有 被 记录 下 来 ， 那 
么 就 可 以 使 用 日 志 追 加 时 间 ， 在 记录 创建 之 后 ， 这 个 时 间 就 不 会 发 生 改变 。 

处 理 时 间 
处 理 时 间 是 指 应 用 程序 在 收 到 事件 之 后 要 对 其 进行 处 理 的 时 间 。 这 个 时 间 可 以 是 在 事件 
发 生 之 后 的 几 毫 秒 、 几 小 时 或 儿 天 。 同 一 个 事件 可 能 会 被 分 配 不 同 的 时 间 戳 ， 这 取决 于 
应 用 程序 何 时 读 取 这 个 事件 。 如 有 果 应 用 程序 使 用 了 两 个 线程 来 读 取 同一 个 事件 ， 这 个 时 
间 恰 也 会 不 一 样 ! 所 以 这 个 时 间 惟 非常 不 可 靠 ， 应 该 避免 使 用 它 。 

注意 时 区 问题 

在 处 理 与 时 间 有 关 的 问题 时 ， 需 要 注意 时 区 问题 。 整 个 数据 管道 应 该 使 用 同 

一 个 时 区 ， 否 则 操作 的 结果 就 会 出 现 混 淆 ， 变 得 毫 无 意义 。 如 果 时 区 问题 不 

可 避免 ， 那 么 在 处 理事 件 之 前 需要 将 它们 转换 到 同一 个 时 区 ， 这 就 要 求 记录 

里 同时 包含 时 区 信息 。 
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11.2.2 状态 


如 果 只 是 单独 处 理 每 一 个 事件 ， 那 么 流 式 处 理 就 很 简单 。 例 如 ， 如 果 想 从 Kafka 读 取 在 线 
购物 交易 事件 流 ， 找 出 金额 超过 10 000 美元 的 交易 ， 并 将 结果 通过 邮件 发 送 给 销售 人 员 ， 
那么 可 以 使 用 Kafka 消费 者 客户 端 和 SMTP 库 ， 几 行 代码 就 可 以 搞定 。 


如 果 操 作 里 包含 了 多 个 事件 ， 流 式 处 理 就 会 变 得 很 有 意思 ， 比 如 根据 类 型 计算 事件 的 数 
量 、 移 动 平均 数 、 合 并 两 个 流 以 便 生 成 更 丰富 的 信息 流 。 在 这 些 情况 下 ， 光 处 理 单个 事件 
是 不 够 的 ， 用 户 需要 跟踪 更 多 的 信息 ， 比 如 这 个 小 时 内 看 到 的 每 种 类 型 事件 的 个 数 、 需 要 
合并 的 事件 、 将 每 种 类 型 的 事件 值 相 加 ， 等 等 。 事件 与 事件 之 间 的 信息 被 称 为 “状态 ”。 


这 些 状态 一 般 被 保存 在 应 用 程序 的 本 地 变量 里 。 例 如 ， 使 用 散 列 表 来 保存 移动 计数 器 。 事 
实 上 ， 本 书 的 很 多 例子 就 是 这 么 做 的 。 不 过 ， 这 不 是 一 种 可 靠 的 方法 ， 因 为 如 果 应 用 程序 
关闭 ， 状 态 就 会 丢失 ， 结 果 就 会 发 生变 化 ， 而 这 并 不 是 用 户 和 希望 看 到 的 。 所 以 ， 要 小 心地 
持久 化 最 近 的 状态 ， 如 果 应 用 程序 重启 ， 要 将 其 恢复 。 


流 式 处 理 包 含 以 下 儿 种 类 型 的 状态 。 

本 地 状态 或 内 部 状态 
这 种 状态 只 能 被 单个 应 用 程序 实例 访问 ， 它 们 一 般 使 用 内 骨 在 应 用 程序 里 的 数据 库 进行 
维护 和 管理 。 本 地 状态 的 优势 在 于 它 的 速度 ， 不 足 之 处 在 于 它 受 到 内 存 大 小 的 限制 。 所 
以 ， 流 式 处 理 的 很 多 设计 模式 都 将 数据 拆 分 到 多 个 子 流 ， 这 样 就 可 以 使 用 有 限 的 本 地 状 
态 来 处 理 它们 。 

外 部 状态 
这 种 状态 使 用 外 部 的 数据 存储 来 维护 ， 一 般 使 用 NoSQL 系统 ， 比 如 Cassandra。 使 用 外 
部 存储 的 优势 在 于 ， 它 没有 大 小 的 限制 ， 而 且 可 以 被 应 用 程序 的 多 个 实例 访问 ， 甚 至 被 
不 同 的 应 用 程序 访问 。 不 足 之 处 在 于 ， 引 入 额外 的 系统 会 造成 更 大 的 延迟 和 复杂 性 。 大 
部 分 流 式 处 理应 用 尽量 避免 使 用 外 部 存储 ， 或 者 将 信息 缓存 在 本 地 ， 减 少 与 外 部 存储 发 
生 交 互 ， 以 此 来 降低 延迟 ， 而 这 就 引入 了 如 何 维护 内 部 和 外 部 状态 一 致 性 的 问题 。 


11.2.3” 流 和 表 的 二 元 性 

大 家 都 熟悉 数据 库 表 ， 表 就 是 记录 的 集合 ， 每 个 表 都 有 一 个 主键 ， 并 包含 了 一 系列 由 
schema 定义 的 属性 。 表 的 记录 是 可 变 的 (可 以 在 表 上 面 执行 更 新 和 删除 操作 )。 我 们 可 以 
通过 查询 表 数 据 获知 某 一 时 刻 的 数据 状态 。 例 如 ， 通 过 查询 CUSTOMERS_CONTACTS 这 
个 表 ， 就 可 以 获取 所 有 客户 的 联系 信息 。 如 果 表 被 设计 成 不 包含 历史 信息 ， 那 么 就 找 不 到 
客户 过 去 的 联系 信息 了 。 


在 将 表 与 流 进行 对 比 时 ， 可 以 这 么 想 : 流 包含 了 变更 一 一流 是 一 系列 事件 ， 每 个 事件 就 是 
一 个 变更 。 表 包含 了 当前 的 状态 ， 是 多 个 变更 所 产生 的 结果 。 所 以 说 ， 表 和 流 是 同一 个 硬 
币 的 两 面 一 一 世界 总 是 在 发 生变 化 ， 用 户 有 时 候 关注 变更 事件 ， 有 时 候 则 关注 世界 的 当前 
状态 。 如 果 一 个 系统 允许 使 用 这 两 种 方式 来 查看 数据 ， 那 么 它 就 比 只 支持 一 种 方式 的 系统 
强大 。 


为 了 将 表 转 化 成 流 ， 需 要 捕捉 到 在 表 上 所 发 生 的 变更 , 将 “insert”、“update” 和 “delete” 
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事件 保存 到 流 里 。 大 部 分 数据 库 提供 了 用 于 捕捉 变更 的 “Change Data Capture”(CDC) 解 
决 方案 ，Kafka 连接 器 将 这 些 变更 发 送 到 Kafka， 用 于 后 续 的 流 式 处 理 。 


为 了 将 流转 化 成 表 ， 需 要 “应 用 ” 流 里 所 包含 的 所 有 变更 ， 这 也 叫 作 流 的 “物化 ”。 首 
先 在 内 存 里 、 内 部 状态 存储 或 外 部 数据 库 里 创建 一 个 表 ， 然 后 从 头 到 尾 遍历 流 里 的 所 
有 事件 ， 逐 个 地 改变 状态 。 在 完成 这 个 过 程 之 后 ， 得 到 了 一 个 表 ， 它 代表 了 某 个 时 间 
点 的 状态 。 


假设 有 一 个 奎 店 ， 某 零售 活动 可 以 使 用 一 个 事件 流 来 表示 : 
“红色 、 蓝 色 和 绿色 鞋子 到 货 " 

“ 蓝 色 鞋子 卖 出 ” 

“红色 鞋子 卖 出 ” 

“ 蓝 色 鞋子 退货 " 

“绿色 鞋子 卖 出 ” 


如 果 想 知道 现在 仓库 里 还 有 哪些 库存 ， 或 者 到 目前 为 止 赚 了 多 少 钱 ， 需 要 对 视图 进行 物 
化 。 图 11-1 告诉 我 们 ， 目 前 还 有 蓝 色 和 黄色 鞋子 ， 账户 上 有 170 美元 。 如 果 想 知道 鞋 店 的 
繁忙 程度 ， 可 以 查看 整个 事件 流 ， 会 发 现 总 共 发 生 了 5 个 交易 ， 还 可 以 查 出 为 什么 蓝 色 鞋 
子 被 退货 。 


































































































仓库 变更 事件 流 











代表 仓库 最 新 状态 
的 表 或 物化 视图 




















图 11-1: 物化 仓库 变更 事件 流 


11.2.4 时 间 窗 口 

大 部 分 针对 流 的 操作 都 是 基于 时 间 窗口 的 ， 比 如 移动 平均 数 、 一 周 内 销量 最 好 的 产品 、 系 
统 的 99 百 分 位 等 。 两 个 流 的 合并 操作 也 是 基于 时 间 窗 口 的 ， 我 们 会 合并 发 生 在 相同 时 间 
片段 上 的 事件 。 不 过 ， 很 少 人 会 停 下 来 仔细 想 想 时 间 窗 口 的 类 型 。 例 如 ， 在 计算 移动 平均 
数 时 ， 需 要 知道 以 下 几 个 问题 。 
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。 窗口 的 大 小 。 是 基于 5 分 钟 进行 平均 ， 还 是 15 分 钟 ， 或 者 一 天 ? 窗口 越 小 ， 就 能 越 快 
地 发 现 变更 ， 不 过 噪声 也 越 多 。 窗 口 越 大 ， 变 更 就 越 平滑 ， 不 过 延迟 也 越 严重 ， 如 果 价 
格 涨 了 ， 需 要 更 长 的 时 间 才 能 看 出 来 。 

。 窗口 移动 的 频率 (“移动 间隔 ”)。5 分 钟 的 平均 数 可 以 每 分 钟 变 化 一 次 ， 或 者 每 秒 钟 变 
化 一 次 ， 或 者 每 当 有 新 事件 到 达 时 发 生变 化 。 如 果 “ 移 动 间隔 ”与 窗口 大 小 相等 ， 这 种 
情况 被 称 为 “滚动 窗口 (tumbling window)”。 如 果 窗 口 随 着 每 一 条 记录 移动 ， 这 种 情况 
被 称 为 “请 动 窗口 (sliding window)”。 

。 窗口 的 可 更 新 时 间 多 长 。 假 设计 算 了 00:00 到 00:05 之 间 的 移动 平均 数 ， 一 个 小 时 之 后 
又 得 到 了 一 些 “ 事 件 时 间 ” 是 00:02 的 事件 ， 那 么 需要 更 新 00:00 到 00:05 这 个 窗口 的 

结果 吗 ? 或 者 就 这 么 算 了 ? 理想 情况 下 ， 可 以 定义 一 个 时 间 段 ， 在 这 个 时 间 段 内 ， 事 件 
可 以 被 添加 到 与 它们 相应 的 时 间 片 段 里 。 如 果 事 件 处 于 4 个 小 时 以 内 ,那么 就 更 新 它们 ， 
否则 就 忽略 它们 。 

窗口 可 以 与 时 间 对 齐 ， 比 如 5 分 钟 的 窗口 如 果 每 分 钟 移动 一 次 ， 那 么 第 一 个 分 片 可 以 是 

00:00~00:05， 第 二 个 就 是 00:01~00:06。 它 也 可 以 不 与 时 间 对 齐 ， 应 用 可 以 在 任何 时 候 启 

动 ， 那 么 第 一 个 分 片 有 可 能 是 03:17~03:22。 滑 动 窗口 永远 不 会 与 时 间 对 齐 ， 因 为 只 要 有 新 

记录 到 达 ， 它 们 就 会 发 生 移 动 。 图 11-2 展示 了 这 两 种 时 间 窗 口 的 不 同 之 处 。 
























































滚动 窗口 一 5 分 钟 的 时 间 窗 口 ， 每 5 分 钟 滚动 一 次 














0 5 10 15 
时 间 
跳跃 窗口 一 一 5 分 钟 的 时 间 窗 口 ， 每 分 钟 跳跃 一 次 


口 重 琶 ， 事 件 属于 多 个 时 间 窗 口 


a 


0 5 10 15 
时 间 


副 

















图 11-2: 滚动 窗口 和 跳跃 窗口 的 区 别 


11.3 流 式 处 理 的 设计 模式 


每 一 个 流 式 处 理 系 统 都 不 一 样 ， 从 基本 的 消费 者 、 处 理 逻辑 和 生产 者 的 组 合 ， 到 使 用 了 
Spark Streaming 和 机 器 学 习 软 件 包 的 复杂 集群 ， 以 及 其 他 很 多 处 于 中 间 位 置 的 组 件 。 不 过 
有 一 些 基本 的 设计 模式 和 解决 方案 可 以 满足 流 式 处 理 架 构 的 常见 需求 。 下 面 将 介绍 一 些 这 
样 的 模式 ， 并 举例 说 明 如 何 使 用 这 种 模式 。 
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11.3.1 














单个 事件 处 理 


处 理 单个 事件 是 流 式 处 理 最 基本 的 模式 。 这 个 模式 也 叫 map 或 filter 模式 ， 因 为 它 经 常 被 
用 于 过 滤 无 用 的 事件 或 者 用 于 转换 事件 map 这 个 术语 是 从 Map-Reduce 模式 中 来 的 ，map 
阶段 转换 事件 ，reduce 阶段 聚合 转换 过 的 事件 )。 











在 这 种 模式 下 ， 应 用 程序 读 取 流 中 的 事件 ， 修 改 它们 ， 然 后 把 














件 生成 到 另 一 个 流 上 。 比 


如 ， 一 个 应 用 程序 从 一 个 流 中 读 取 日 志 消 息 ， 并 把 ERROR 级 别 的 销 息 写 到 高 优先 级 的 流 


中 ， 同 时 把 其他 消息 写 到 低 优先 级 的 流 中 。 再 如 ， 一 个 应 用 程序 从 流 中 读 取 事 件 ， 并 把 事 























件 从 JSON 格式 改 为 Avro 格式 。 这 类 应 用 程序 不 需要 在 程序 内 部 维护 状态 ， 因 为 每 一 个 





hl 


事件 都 是 独 








六 处 理 的 。 这 也 意味 着 ， 从 错误 中 恢复 或 进行 负载 均衡 会 非常 容易 ， 因 为 不 需 





要 进行 恢复 状态 的 操作 ， 只 需要 将 事件 交 给 应 用 程序 的 另 一 个 实例 去 处 理 。 
这 种 模式 可 以 使 用 一 个 生产 者 和 一 个 消费 者 来 实现 ， 如 图 11-3 所 示 。 



























































图 11-3: 单 事件 处 理 拓扑 


11.3.2 


使 用 本 地 状态 


大 部 分 流 式 处 理应 用 程序 关心 的 是 如 何 聚 合 信息 ， 特 别 是 基于 时 间 窗 
找 出 每 天 最 低 和 最 高 的 股票 交易 价格 并 计算 移动 平均 数 。 

要 实现 这 些 聚 合 操作 ， 需 要 维护 流 的 状态 。 在 本 例 中 ,为 了 计算 每 天 的 最 小 价格 和 平均 价 
格 ， 需 要 将 最 小 值 和 最 大 值 保存 下 来 ， 并 将 它们 与 每 一 个 新 值 进行 对 比 。 


这 些 操作 可 以 通过 本 地 状态 (而 不 是 共享 状态 ) 来 实现 ， 


























于 组 的 聚合 操作 ， 如 图 11-4 所 示 。 例 如 ， 基 于 各 个 股票 代码 进行 聚合 ， 


票 市 场 。 我 们 使 用 了 一 个 Kafka 分 区 器 来 确保 具有 相同 股票 代码 的 事 人 























分 区 。 应 月 


口 进行 聚合 。 例 如 ， 


因为 本 例 中 的 每 一 个 操作 都 是 基 





而 不 是 基于 整个 股 
总 是 被 写 入 相同 的 


明 程序 的 每 个 实例 从 分 配给 它们 的 分 区 上 获取 事件 〈 这 是 Kafka 的 消费 者 保证 )。 
也 就 是 说 ， 应 用 程序 的 每 一 个 实例 都 可 以 维护 一 个 股票 代码 子 集 的 状态 。 
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图 11-4: 使 用 本 地 状态 的 事件 拓扑 


如 果 流 式 处 理应 用 程序 包含 了 本 地 状态 ， 情 况 就 会 变 得 非常 复杂 ， 而 且 还 需要 解决 下 列 的 
一 些 问 题 。 





内 存 使 用 
应 用 实例 必须 有 可 用 的 内 存 来 保存 本 地 状态 。 
持久 化 


要 确保 在 应 用 程序 关闭 时 不 会 丢失 状态 ， 并 且 在 应 用 程序 重启 后 或 者 切换 到 另 一 个 应 用 
实例 时 可 以 恢复 状态 。Streams 可 以 很 好 地 处 理 这 些 问 题 ， 它 使 用 内 和 瞬 的 RocksDB 将 本 
地 状态 保存 在 内 存 里 ， 同 时 持久 化 到 磁盘 上 ， 以 便 在 重启 后 可 以 恢复 。 本 地 状态 的 变更 
会 被 发 送 到 Kafka 主题 上 。 如 果 Streams 节点 崩溃 ， 本 地 状态 并 不 会 丢失 ， 可 以 通过 
重新 读 取 Kafka 主题 上 的 事件 来 重建 本 地 状态 。 例 如 ， 如 果 本 地 状态 包含 “IBM 当前 
最 小 价格 是 167.19”， 并 且 已 经 保存 到 了 Kafka 上 ， 那 么 稍 后 就 可 以 通过 读 取 这 些 数据 
来 重建 本 地 缓存 。 这 些 Kafka 主题 使 用 了 压缩 日 志 ， 以 确保 它们 不 会 无 限量 地 增长 ， 方 
便 重 建 状 态 。 


再 均衡 
有 时 候 ， 分 区 会 被 重新 分 配给 不 同 的 消费 者 。 在 这 种 情况 下 ， 失 去 分 区 的 实例 必须 把 最 
后 的 状态 保存 起 来 ， 同 时 获得 分 区 的 实例 必须 知道 如 何 恢复 到 正确 的 状态 。 
不 同 的 流 式 处 理 框架 为 开发 者 提供 了 不 同 的 本 地 状态 支持 。 如 果 应 用 程序 需要 维护 本 地 状 
态 ， 那 么 就 要 知道 框架 是 否 提供 了 支持 。 本 章 的 末尾 将 会 对 一 些 框架 进行 简要 的 对 比 ， 不 
过 软件 发 展 变化 太 快 ， 而 流 式 处 理 框 架 更 是 如 此 。 
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11.3.3 多 阶段 处 理 和 重 分 区 


本 地 状态 对 按 组 聚合 操作 起 到 很 大 的 作用 。 但 如 果 需 要 使 用 所 有 可 用 的 信息 来 获得 一 个 结 
有 果 呢 ? 例如 ， 假 设 要 发 布 每 天 的 “前 10 支 ”股票 ， 这 10 文 股票 需要 从 每 天 的 交易 股票 中 
挑选 出 来 。 很 显然 ， 如 果 只 是 在 每 个 应 用 实例 上 进行 处 理 是 不 够 的 ， 因 为 10 支 股票 分 布 
在 多 个 实例 上 ， 如 图 11-5 所 示 。 我 们 需要 一 个 两 阶段 解决 方案 。 首 先 ， 计 算 每 支 股 票 当天 
的 涨 跌 ， 这 个 可 以 在 每 个 实例 上 进行 。 然 后 将 结果 写 到 一 个 包含 了 单个 分 区 的 新 主题 上 。 
另 一 个 单独 的 应 用 实例 读 取 这 个 分 区 ， 找 出 当天 的 前 10 支 股票 。 新 主题 只 包含 了 每 支 股 
票 的 概要 信息 ， 比 其 他 包含 交易 信息 的 主题 要 小 很 多 ， 所 以 流量 很 小 ， 使 用 单个 应 用 实例 
就 足以 应 付 。 不 过 ， 有 时 候 需要 更 多 的 步骤 才能 生成 结果 。 
















































































每 日 获 利 
或 损失 














图 11-5: 包含 本 地 状态 和 重 分 区 步骤 的 拓扑 


这 种 多 阶段 处 理 对 于 写 过 Map-Reduce 代码 的 人 来 说 应 该 很 熟悉 ， 因 为 他 们 经 常 要 使 用 多 
个 reduce 步骤 。 如 果 写 过 Map-Reduce 代码 ， 就 应 该 知道 ， 处 理 每 个 reduce 步骤 的 应 用 需 
要 被 隔离 开 来 。 与 Map-Reduce 不 同 的 是 ， 大 多 数 流 式 处 理 框 架 可 以 将 多 个 步骤 放 在 同一 
个 应 用 里 ， 框 架 会 负责 调配 每 一 步 需 要 运行 哪 一 个 应 用 实例 (或 worker)。 


11.3.4 ”使 用 外 部 查找 一 一 流 和 表 的 连接 

有 时 候 ， 流 式 处 理 需要 将 外 部 数据 和 流 集成 在 一 起 ， 比 如 使 用 保存 在 外 部 数据 库 里 的 规则 
来 验证 事务 ， 或 者 将 用 户 信息 填充 到 点 击 事件 当中 。 

很 明显 ， 为 了 使 用 外 部 查找 来 实现 数据 填充 ， 可 以 这 样 做 ， 对 于 事件 流 里 的 每 一 个 点 击 事 
件 ， 从 用 户 信息 表 里 查 找 相关 的 用 户 信息 ， 从 中 抽取 用 户 的 年 龄 和 性 别 信息 ， 把 它们 包含 
在 点 击 事件 里 ， 然 后 将 事件 发 布 到 另 一 个 主题 上 ， 如 图 11-6 所 示 。 
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11-6: 使 用 外 部 数据 源 的 流 式 处 理 


这 种 方式 最 大 的 问题 在 于 ， 外 部 查找 会 带 来 严重 的 延迟 ， 一 般 在 5~15ms 之 间 。 这 在 很 多 
情况 下 是 不 可 行 的 。 另 外 ， 外 部 数据 存储 也 无 法 接受 这 种 额外 的 负载 一 一 流 式 处 理 系统 每 
秒 钟 可 以 处 理 10~50 万 个 事件 ， 而 数据 库 正 常情 况 下 每 秒 钟 只 能 处 理 1 万 个 事件 ， 所 以 需 
要 伸缩 性 更 强 的 解决 方案 。 

为 了 获得 更 好 的 性 能 和 更 强 的 伸缩 性 ， 需 要 将 数据 库 的 信息 缓存 到 流 式 处 理应 用 程序 里 。 
不 过 ， 要 管理 好 这 个 缓存 也 是 一 个 挑战 。 比 如 ， 如 何 保证 缓存 里 的 数据 是 最 新 的 ?如 果 刷 
新 太 频 繁 ， 那 么 仍然 会 对 数据 库 造 成 压力 ， 缓 存 也 就 失去 了 作用 。 如 果 刷 新 不 及 时 ， 那 么 
流 式 处 理 中 所 用 的 数据 就 会 过 时 。 

如 果 能 够 捕捉 数据 库 的 变更 事件 ， 并 形成 事件 流 ， 流 式 处 理 作业 就 可 以 监听 事件 流 ， 并 及 
时 更 新 缓存 。 捕 提 数 据 库 的 变更 事件 并 形成 事件 流 ， 这 个 过 程 被 称 为 CDC 一 一 变更 数据 捕 
捉 (Change Data Capture) 。 如 果 使 用 了 Connect， 就 会 发 现 ， 有 一 些 连接 器 可 以 用 于 执行 
CDC 任务 ， 把 数据 库 表 转 成 变更 事件 流 。 这 样 就 拥有 了 数据 库 表 的 私有 副本 ， 一 旦 数据 库 
发 生变 更 ， 用 户 会 收 到 通知 ， 并 根据 变更 事件 更 新 私有 副本 里 的 数据 ， 如 图 11-7 所 示 。 
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11-7: 连接 流 和 表 的 拓扑 ， 不 需要 外 部 数据 源 


这 样 一 来 ， 当 收 到 点 击 事件 时 ， 可 以 从 本 地 的 缓存 里 查找 user id， 并 将 其 填充 到 点 击 事件 
里 。 因 为 使 用 的 是 本 地 缓存 ， 它 具有 更 强 的 伸缩 性 ， 而 且 不 会 影响 数据 库 和 其 他 使 用 数据 
库 的 应 用 程序 。 
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之 所 以 将 这 种 方案 叫 作 流 和 表 的 连接 ， 是 因为 其 中 的 一 个 流 代 表 了 本 地 缓存 表 的 变更 。 


11.3.5” 流 与 流 的 连接 

有 时 候 需 要 连接 两 个 真实 的 事件 流 。 什 么 是 “真实 ”的 流 ? 本 章 开 始 的 时 候 曾 经 说 过 ， 流 
是 无 边界 的 。 如 果 使 用 一 个 流 来 表示 一 个 表 ， 那 么 就 可 以 忽略 流 的 大 部 分 历史 事件 ， 因 为 
你 只 关心 表 的 当前 状态 。 不 过 ， 如 果 要 连接 两 个 流 ， 那 么 就 是 在 连接 所 有 的 历史 事件 一 一 
将 两 个 流 里 具有 相同 键 和 发 生 在 相同 时 间 窗 口内 的 事件 匹配 起 来 。 这 就 是 为 什么 流 和 流 的 
连接 也 叫 作 基于 时 间 窗 口 的 连接 (windowed-join)。 


假设 有 一 个 由 网 站 用 户 输入 的 搜索 事件 流 和 一 个 由 用 户 对 搜索 结果 进行 点 击 的 事件 流 。 对 用 
户 的 搜索 和 用 户 对 搜索 结果 的 点 击 进行 匹配 ， 就 可 以 知道 哪 一 个 搜索 的 热度 更 高 。 很 显然 ， 
我 们 需要 基于 搜索 关键 词 进行 匹配 ， 而 且 每 个 关键 词 只 能 与 一 定时 间 窗 口内 的 事件 进行 匹 
配 一 一 假设 用 户 在 输入 搜索 关键 词 后 儿 秒 钟 就 会 点 击 搜索 结果 。 因 此 ， 我 们 为 每 一 个 流 维护 
了 以 儿 秒 钟 为 单位 的 时 间 窗 口 ， 并 对 这 些 时 间 窗 口 事 件 结果 进行 匹配 ， 如 图 11-8 所 示 。 
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图 11-8: 连接 两 个 流 ， 通 常 包 含 一 个 移动 时 间 窗 


在 Streams 中 ， 上 述 的 两 个 流 都 是 通过 相同 的 键 来 进行 分 区 的 ， 这 个 键 也 是 用 于 连接 两 个 
流 的 键 。 这 样 一 来 ，user_id:42 的 点 击 事件 就 被 保存 在 点 击 主题 的 分 区 5 上 ， 而 所 有 user_ 
id:42 的 搜索 事件 被 保存 在 搜索 主题 的 分 区 5 上 。Streams 可 以 确保 这 两 个 主题 的 分 区 5 的 
事件 被 分 配给 同一 个 任务 ， 这 个 任务 就 会 得 到 所 有 与 user_id:42 相关 的 事件 。Streams 在 内 
冬 的 RocksDB 里 维护 了 两 个 主题 的 连接 时 间 窗 口 ， 所 以 能 够 执行 连接 操作 。 


11.3.6 乱 序 的 事件 


不 管 是 对 于 流 式 处 理 还 是 传统 的 ETL 系统 来 说 ， 处 理 乱 序 事件 都 是 一 个 挑战 。 物 联网 领域 
经 常 发 生 乱 序 事 件 : 一 个 移动 设备 断 开 WiFi 连接 几 个 小 时 ， 在 重新 连 上 WiFi 之 后 将 儿 个 
小 时 累积 的 事件 一 起 发 送出 去 ， 如 图 11-9 所 示 。 这 在 监控 网 络 设备 (故障 交换 机 被 修复 之 
前 不 会 发 送 任何 诊断 数据 ) 或 进行 生产 (装置 间 的 网 络 连 接 非 常 不 可 靠 ) 时 也 时 有 发 生 。 
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迟到 的 旧事 件 





























11-9: 乱 序 事件 


要 让 流 处 理应 用 程序 处 理 好 这 些 场景 ， 需 要 做 到 以 下 几 点 。 


。 识别 乱 序 的 事件 。 应 用 程序 需要 检查 事件 的 时 间 ， 并 将 其 与 当前 时 间 进 行 比较 。 

。 规定 一 个 时 间 段 用 于 重 排 乱 序 的 事件 。 比 如 3 个 小 时 以 内 的 事件 可 以 重 排 ， 但 3 周 以 外 
的 事件 就 可 以 直接 扔 掉 。 

。 具有 在 一 定时 间 段 内 重 排 乱 序 事件 的 能 力 。 这 是 流 式 处 理应 用 与 批 处 理 作业 的 一 个 主要 
不 同 点 。 假 设 有 一 个 每 天 运行 的 作业 ， 一 些 事件 在 作业 结束 之 后 才 到 达 ， 那 么 可 以 重新 
运行 昨天 的 作业 来 更 新 事件 。 而 在 流 式 处 理 中 ,“ 重 新 运行 昨天 的 作业 ”这 种 情况 是 不 
存在 的 ， 乱 序 事件 和 新 到 达 的 事件 必须 一 起 处 理 。 

。 具备 更 新 结果 的 能 力 。 如 果 处 理 的 结果 保存 到 数据 库 里 ， 那 么 可 以 通过 put 或 update 对 

结果 进行 更 新 。 如 果 流 应 用 程序 通过 邮件 发 送 结果 ， 那 么 要 对 结果 进行 更 新 ， 就 需要 很 
巧妙 的 手段 。 

有 一 些 流 式 处 理 框架 ， 比 如 Google 的 Dataflow 和 Kafka 的 Streams， 都 支持 独立 于 处 理 时 

间 发 生 的 事件 ， 并 且 能 够 处 理 比 当前 处 理 时 间 更 晚 或 更 早 的 事件 。 它 们 在 本 地 状态 里 维护 

了 多 个 聚合 时 间 窗 口 ， 用 于 更 新 事件 ， 并 为 开发 者 提供 配置 时 间 窗 口 大 小 的 能 力 。 当 然 ， 

时 间 窗 口 越 大 ， 维 护 本 地 状态 需要 的 内 存 也 越 大 。 

Streams API 通常 将 聚合 结果 写 到 主题 上 。 这 些 主题 一 般 是 压缩 日 志 主 题 ， 也 就 是 说 ， 它 

们 只 保留 每 个 键 的 最 新 值 。 如 果 一 个 聚合 时 间 窗 口 的 结果 需要 被 更 新 为 晚 到 事件 的 结果 ， 

Streams 会 直接 为 这 个 聚合 时 间 窗 口 写 入 一 个 新 的 结果 ， 将 前 一 个 结果 履 盖 掉 。 


11.3.7 ”重新 处 理 

最 后 一 个 很 重要 的 模式 是 重新 处 理事 件 ， 该 模式 有 两 个 变种 。 

。 我 们 对 流 式 处 理应 用 进行 了 改进 ， 使 用 新 版 本 应 用 处 理 同一 个 事件 流 ， 生 成 新 的 结果 ， 
并 比较 两 种 版 本 的 结果 ， 然 后 在 某 个 时 间 点 将 客户 端 切 换 到 新 的 结果 流 上 。 

。 现 有 的 流 式 处 理应 用 出 现 了 缺陷 ， 修 复 缺 陷 之 后 ， 重 新 处 理事 件 流 并 重新 计算 结果 。 


对 于 第 一 种 情况 ，Kafka 将 事件 流 长 时 间 地 保存 在 可 伸缩 的 数据 存储 里 。 也 就 是 说 ， 要 使 
用 两 个 版 本 的 流 式 处 理应 用 来 生成 结果 ， 只 需要 满足 如 下 条 件 : 

。 将 新 版 本 的 应 用 作为 一 个 新 的 消费 者 群 组 ， 

。 让 它 从 输入 主题 的 第 一 个 偏 移 量 开始 读 取 数 据 (这 样 它 就 拥有 了 属于 自己 的 输入 

流 事件 副本 )， 

。 检查 结果 流 , 在 新 版 本 的 处 理 作 业 赶 上 进度 时 , 将 客户 端 应 用 程序 切换 到 新 的 结果 流 上 。 
第 二 种 情况 有 一 定 的 挑战 性 。 它 要 求 “ 重 置 ”应 用 ， 让 应 用 回 到 输入 流 的 起 始 位 置 开 始 处 
， 同 时 重 置 本 地 状态 《这样 就 不 会 将 两 个 版 本 应 用 的 处 理 结果 混 靖 起 来 了 )， 而 且 还 可 
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能 需要 清理 之 前 的 输出 流 。 虽 然 Streams 提供 了 一 个 工具 用 于 重 置 应 用 的 状态 ， 不 过 如 果 
有 条 件 运行 两 个 应 用 程序 并 生成 两 个 结果 流 ， 还 是 建议 使 用 第 一 种 方案 。 第 一 种 方案 更 加 
安全 ， 多 个 版 本 可 以 来 回 切换 ， 可 以 比较 不 同 版 本 的 结果 ， 而 且 不 会 造成 数据 的 丢失 ， 也 
不 会 在 清理 过 程 中 引入 错误 。 






































11.4 ” Streams 示 例 


为 了 演示 如 何在 实际 中 实现 这 些 模式 ， 下 面 将 给 出 一 些 使 用 Streams API 的 例子 。 之 所 以 
使 用 这 个 API， 是 因为 它 相对 简单 ， 而 且 它 是 与 Kafka 一 起 发 布 的 ， 用 户 可 以 直接 使 用 它 。 
不 过 要 记 住 一 点 ， 我 们 可 以 使 用 任意 的 流 式 处 理 框 架 和 软件 包 来 实现 这 些 模式 ， 这 些 模式 
具有 通用 性 。 

Kafka 有 两 个 基于 流 的 API， 一 个 是 底层 的 Processor API， 一 个 是 高 级 的 Streams DSL。 下 
面 的 例子 中 将 使 用 Streams DSL。 通 过 为 事件 流 定义 转换 链 可 以 实现 流 式 处 理 。 转 换 可 以 
是 简单 的 过 滤器 ， 也 可 以 是 复杂 的 流 与 流 的 连接 。 我 们 可 以 通过 底层 的 API 实现 自己 的 转 
换 ， 不 过 没 必 要 这 么 做 。 

在 使 用 DSL API 时 ， 一 般 会 先 用 StreamBuilder 创建 一 个 拓扑 (topology)。 拓 扑 是 一 个 有 
向 图 (DAG)， 包含 了 各 个 转换 过 程 ， 将 会 被 应 用 在 流 的 事件 上 。 在 创建 好 拓扑 后 ， 使 用 
拓扑 创建 一 个 KafkaStreams 执行 对 象 。 多 个 线程 会 随 着 Kafkastreams 对 象 启动 ， 将 拓扑 应 
用 到 流 的 事件 上 。 在 关闭 Kafkastreams 对 象 时 ， 处 理 也 随 之 结束 。 

下 面 将 展示 一 些 使 用 Streams 来 实现 上 述 模式 的 例子 。 字 数 统计 这 个 例子 用 于 演示 map 与 filter 
模式 以 及 简单 的 聚合 ， 另 一 个 例子 是 计算 股票 交易 市 场 的 各 种 统计 信息 ， 用 于 演示 基于 时 间 窗 
口 的 聚合 ， 最 后 使 用 填充 点 击 事件 流 (ClickStream Enrichment) 的 例子 来 演示 流 的 连接 。 


11.4.1 字数 统计 

先 看 一 个 使 用 了 Streams 的 字数 统计 示例 。 完 整 的 示例 代码 可 以 在 GitHub (https://github. 
com/gwenshap/kafka-streams-wordcount) 上 找到 。 

要 创建 一 个 流 式 处 理应 用 ， 首 先 需要 配置 Kafka Streams 引擎 。Kafk aStreams 有 很 多 配 
置 参 数 ， 这 里 就 不 展开 讨论 了 ， 感 兴趣 的 读者 可 以 在 官方 文档 里 查看 。 另 外 ， 也 可 以 将 
生产 者 和 消费 者 内 岁 到 Kafka Streams 引擎 里 ， 只 要 把 生产 者 或 消费 者 的 配置 信息 添加 到 
Properties 对 象 里 即 可 。 


public class WordCountExample { 




































































public static void main(String[] args) throws Exception{ 


Properties props = new Properties(); 
props.put(StreamsConfig.APPLICATION_ID_CONFIG, 
"wordcount"); @ 
props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, 
"LocaLhost:9092"); © 
props.put(StreamsConfig.KEY_SERDE_CLASS_CONFIG, 
Serdes.String().getCLass().getName()); © 
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props.put(StreamsConfig.VALUE_SERDE_CLASS_CONFIG, 
Serdes.String().getClass().getName()); 


@ 每 个 Streams 应 用 程序 必须 要 有 一 个 应 用 ID。 这 个 ID 用 于 协调 应 用 实例 ， 也 用 于 命名 
内 部 的 本 地 存储 和 相关 主题 。 对 于 同一 个 Kafka 集群 里 的 每 一 个 Streams 应 用 来 说 ， 这 
个 名 字 必 须 是 唯一 的 。 

@ Streams 应 用 程序 从 Kafka 主题 上 读 取 数据 ， 并 将 结果 写 到 Kafka 主题 上 ， 所 以 我 们 要 
告诉 应 用 程序 如 何 找到 Kafka。 稍 后 我 们 将 介绍 ，Streams 应 用 程序 也 使 用 Kafka 作为 
协调 工具 。 

加 在 读 写 数据 时 ， 应 用 程序 需要 对 消息 进行 序列 化 和 反 序 列 化 ， 因 此 提供 了 默认 的 序列 化 
类 和 反 序 列 化 类 。 如 果 有 必要 ， 可 以 在 稍 后 创建 拓扑 时 覆盖 默认 的 类 。 


做 好 配置 之 后 ， 下 面 开始 创建 拓扑 。 


KStreamBuilder builder = new KStreamBuilder(); © 













































































KStream<String, String> source = 
builder.stream("wordcount-input"); 


final Pattern pattern = Pattern.compile("\\W+"); 


KStream counts = source.flatMapValues(value-> 
Arrays.asList(pattern.split(value.toLowerCase()))) © 
.map((key, value) -> new KeyValue<0bject, 

Object>(value, value)) 
.filter((key, value) -> (!vaLue.equaLs("the"))) © 
.groupByKey() @ 
.Count("CountStore").mapValues(value-> 
Long.toString(valuye)).toStrean(); © 
counts.to("wordcount-output"); @ 


@ 创建 一 个 KstreamBuilder 对 象 ， 并 定义 了 一 个 流 ， 将 它 指向 输入 主题 。 

@ 从 主题 上 读 取 的 每 一 个 事件 就 是 一 行文 字 ， 首 先 使 用 正则 表达 式 将 它 拆 分 为 一 系列 单 
词 ， 然 后 将 每 个 单词 (事件 的 值 ) 作为 事件 的 键 ， 这 样 就 可 以 执行 group by 操作 了 。 

图 将 单词 the 过 滤 掉 ， 过 滤 操 作 看 起 来 很 简单 。 

@ 根据 键 执行 group by 操作 ， 这 样 就 得 到 了 一 个 不 重复 的 单词 集合 

© 计算 每 个 集合 里 的 事件 数 。 计 算 的 结果 是 Long 类 型 ， 将 它 转 成 String 类 型 ， 方 便 从 
Kafka 上 读 取 结 果 。 

@ 最 后 把 结果 写 回 Kafka。 


定义 好 转换 的 流程 后 ， 应 用 程序 将 会 运行 这 个 流程 ， 接 下 来 要 做 的 就 是 运行 它 


KafkaStreams streams = new KafkaStreams(builder, props); © 













































































streams.start(); @ 





// 一 般 情况 下 ,Streams 应 用 程序 会 一 直 运 行 下 去 
// 本 例 中 ,只 让 它 运 行 一 段 时 间 , 然 后 停 掉 它 ,因为 数据 是 有 限 的 
Thread. sleep(5000L); 


























streanms.close(); © 
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} 
} 


@ 基于 拓扑 和 配置 属性 定义 一 个 KafkaStreams 对 象 。 
@ 启动 Kafka Streams 引擎。 
全 过 一 段 时 间 后 将 它 停 掉 。 


就 是 这 么 简单 ! 本 例 只 用 了 几 行 代码 ， 就 演示 了 如 何 实现 单 事件 处 理 模式 〈 在 事件 上 使 用 
了 map 与 flter)， 然 后 通过 group by 操作 对 数据 进行 重新 分 区 ， 并 为 统计 记录 个 数 维护 了 
一 个 简单 的 本 地 状态 。 

建议 运行 完整 的 示例 ，GitHub 库 的 README 文件 包含 了 如 何 运行 示例 的 说 明 。 


也 许 你 会 注意 到 ， 除 了 Kafka 外 ， 不 需要 在 机 器 上 安装 任何 软件 ， 就 可 以 运行 完整 的 示 
例 。 这 类 似 于 在 “本 地 模式 ”下 使 用 Sparkk。 主 要 的 不 同 之 处 在 于 ， 如 果 主 题 包含 了 多 个 
分 区 ， 就 可 以 运行 多 个 字数 统计 应 用 实例 (在 不 同 的 命令 行 终 端 运 行 )， 而 这 也 就 是 第 一 
个 Streams 集群 。 几 个 字数 统计 应 用 实例 之 间 互 相交 互 ， 协 调处 理 任务 。Spark 的 本 地 模 
式 非常 简单 ， 但 要 在 生产 环境 运行 集群 ， 需 要 安装 YARN 或 者 Mesos， 并 在 所 有 的 机 器 上 
安装 Spark， 然 后 将 你 的 应 用 提交 到 集群 上 ， 所 以 Spark 有 较 高 的 准 入 门槛 。 而 如 果 使 用 
Streams API， 只 需要 启动 几 个 应 用 实例 就 可 以 拥有 一 个 集群 。 在 开发 机 上 运行 和 在 生产 环 
境 中 运行 几乎 是 一 样 的 。 


11.4.2 ”股票 市 场 统计 

接 下 来 的 这 个 例子 会 复杂 一 些 ， 下 面 将 从 一 个 股票 交易 事件 流 里 读 取 事件 ， 这 些 事件 包含 
了 股票 代码 、 沽 盘 价 和 要 价 规模 。 在 股票 交易 里 ， 沽 盘 价 是 指 卖方 的 出 价 ， 买 入 价 是 指 买 
方 建议 支付 的 价格 ， 要 价 规模 是 指 卖方 愿意 在 相应 价格 基础 上 出 售 的 股 数 。 为 了 简单 起 
见 ， 这 里 直接 忽略 竞标 过 程 。 数 据 里 不 会 包含 时 间 惟 ， 相 反 ， 我 们 会 使 用 由 Kafka 生产 者 
计算 得 出 的 “事件 时 间 ”。 

下 面 将 创建 一 个 包含 了 若干 时 间 窗 口 统计 信息 的 输出 流 : 


。 每 5 秒 钟 内 最 好 的 最低 的 ) 沾 盘 价 ; 
。 每 5 秒 钟 内 交易 的 股 数 ， 
。 每 5 秒 钟 内 平均 沾 盘 价 。 


这 些 统计 信息 每 秒 钟 会 更 新 一 次 。 


为 了 简单 起 见 ， 假 设 交 易 所 只 有 10 支 不 同 的 股票 。 应 用 的 参数 设置 与 字数 统计 示例 
很 相似 。 


Properties props = new Properties(); 
props.put(StreamsConfig.APPLICATION_ID_CONFIG, "stockstat"); 
props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, 

Constants .BROKER ) ; 
props.put(StreamsConfig.KEY_SERDE_CLASS_CONFIG, 
Serdes.String().getClass().getName()); 
props.put(StreamsConfig.VALUE_SERDE_CLASS_CONFIG, 
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TradeSerde.cLass.getName() ); 


主要 的 不 同 在 于 这 次 使 用 的 serde 类 是 不 一 样 的 。 在 字数 统计 应 用 里 ， 键 和 值 的 类 型 都 是 
String， 所 以 使 用 了 Serdes.String() 类 作为 序列 化 器 和 反 序列 化 器 。 而 在 这 个 例子 里 ， 键 
仍然 是 一 个 字符 串 ， 但 值 是 一 个 Trade 对 象 ， 它 包含 了 股票 代码 、 沾 盘 价 和 要 价 规模 。 为 
了 序列 化 和 反 序列 化 这 个 对 象 (还 包括 应 用 里 用 到 的 其 他 几 种 对 象 )， 使 用 了 Google 的 
Gson 类 库 。 借 助 这 个 类 库 ， 可 以 生成 JSon 序列 化 右 和 反 序 列 化 器 ， 然 后 创建 一 个 包装 类 ， 
用 于 生成 Serde 对 象 。 
static public final class TradeSerde extends WrapperSerde<Trade> { 
public TradeSerde() { 


super(new JsonSerializer<Trade>(), 
new JsonDeserializer<Trade>(Trade.class)); 




















} 


这 里 没有 什么 踩 中 的， 只 是 要 记得 为 存储 在 Kafka 里 的 每 一 个 对 象 提供 一 个 serde 对 
象 一 一 输入 、 输 出 和 中 间 结 果 。 为 了 简化 这 个 过 程 ， 建 议 使 用 GSon、Avro、Protobuf 等 框 
架 来 生成 Serde。 


在 配置 好 以 后 ， 下 面 开始 构建 拓扑 。 


KStream<TickerWindow, TradeStats> stats = source.groupByKey() ©O@ 
.aggregate(TradeStats: :new, @ 
(k, v, tradestats) -> tradestats.add(v), © 
TimeWindows.of(5000).advanceBy(1000), @ 
new TradeStatsSerde(), © 
"trade-stats-store") @ 
.toStream((key, value) -> new TickerNindow(key.key()， 
key.window().start())) @ 
.mapValues((trade) -> trade.computeAvgPrice()); © 
































stats.to(new TickerWindowSerde(), new TradeStatsSerde(), 
"stockstatsoutput"); © 


@ 本 例 从 输入 主题 上 读 取 事件 并 执行 一 个 groupByKey() 操作 开始 。 这 个 方法 虚 有 其 名 ， 
实际 上 并 不 会 执行 任何 分 组 操作 。 不 过 ， 它 会 确保 事件 流 按照 记录 的 键 进行 分 区 。 因 为 

在 写 数据 时 使 用 了 键 ， 而 且 在 调用 groupByKey() 方法 之 前 不 会 对 键 进行 修改 ， 数 据 仍 

然 是 按照 它们 的 键 进行 分 区 的 ， 所 以 说 这 个 方法 不 会 做 任何 事情 。 

@ 在 确保 正确 的 分 区 之 后 ， 开 始 进行 基于 时 间 窗 口 的 聚合 。aggregate 方法 将 流 拆 分 成 相 
互 合 加 的 时 间 窗口 (每 秒 钟 出 现 一 个 5 秒 钟 的 时 间 窗 口 );， 然 后 在 时 间 窗 口内 的 所 有 
件 上 应 用 聚合 方法 。 这 个 方法 的 第 一 个 参数 是 一 个 新 的 对 象 ， 用 于 存放 聚合 的 结果 ， 也 
就 是 Tradestats。 我 们 创建 这 个 对 象 ， 并 用 它 存 放 每 个 时 间 窗 口 的 统计 信息 一 一 最 低 价 
格 、 平 均 价格 和 交易 数量 。 

全 提供 了 一 个 方法 对 记录 进行 聚合 ，Tradestats 的 add 方法 用 于 更 新 窗口 内 的 最 低 价 格 、 
交易 数量 和 总 价 。 

@ 定义 了 5s (5000ms) 的 时 间 窗 口 ， 并 且 每 秒 钟 都 会 向 前 滑动 。 

@ 提供 了 一 个 Serde 对 象 ， 用 于 序列 化 和 反 序 列 化 聚合 结果 (Tradestats 对 象 ) 。 

@ 在 介绍 模式 时 曾经 说 过 ， 基 于 时 间 窗 口 的 聚合 需要 维护 本 地 状态 。 聚 合 方法 的 最 后 一 个 
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参数 就 是 本 地 状态 存储 的 名 字 ， 它 可 以 是 任意 具有 唯一 性 的 名 字 。 

@ 聚合 结果 是 一 个 表 ， 包 含 了 股票 信息 ， 并 使 用 时 间 窗 口 作为 主键 、 聚 合 结果 作为 值 。 它 
表示 一 条 记录 ， 以 及 从 变更 流 中 计算 得 出 的 特定 状态 (参考 “概念 ”一 太 有 关 流 和 表 二 
元 性 的 讨论 )。 这 里 想 将 表 重 新 转 成 事件 流 ， 不 过 不 再 使 用 整个 时 间 窗 口 作为 键 ， 而 是 
使 用 一 个 包含 了 股票 信息 和 时 间 窗 口 起 始 时 间 的 对 象 。toStrean 方法 将 表 转 成 一 个 流 ， 

并 将 键 转 成 TickerWindow 对 象 。 

@@ 最 后 一 步 是 更 新 平均 价格 。 现 在 ， 聚 合 结果 里 包含 了 总 价 和 交易 数量 。 遍 历 所 有 的 记 
录 ， 并 使 用 现 有 的 统计 信息 计算 平均 价格 ， 然 后 把 它 写 到 输出 流 里 。 

© 最 后 将 结果 写 到 stockstats-output 流 里 。 

定义 好 流程 之 后 ， 用 它 生 成 KafkaStreams 对 象 ， 并 运行 它 ， 就 像 之 前 的 “字数 统计 ”那个 
例子 一 样 。 

这 个 例子 展示 了 如 何在 一 个 流 上 面 进行 基于 时 间 窗 的 聚合 ， 这 也 许 就 是 最 为 流行 的 流 式 处 

理 使 用 场景 。 大 家 可 以 发 现 ， 为 聚合 维护 一 个 本 地 状态 是 一 件 多 么 简单 的 事情 ， 只 需要 提 

供 一 个 Serde 对 象 和 状态 存储 的 名 字 。 不 仅 如 此 ， 这 个 应 用 还 能 扩展 到 多 个 实例 ， 如 果 有 

实例 失效 ， 它 的 分 区 将 会 被 分 配给 其 他 存活 的 实例 ， 从 而 实现 自动 的 故障 恢复 。 在 11.5 节 

将 介绍 更 多 有 关 这 种 机 制 的 实现 原理 


完整 的 例子 和 运行 说 明 可 以 在 GitHub (https://github.com/gwenshap/kafka-streams-stockstats) 
上 找到 。 


11.4.3 填充 点 击 事件 流 


最 后 一 个 例子 将 通过 填充 网 站 点 击 事件 流 来 演示 如 何 进 行 流 的 连接 。 本 例 首先 生成 一 个 模 
拟 点 击 的 事件 流 ， 一 个 虚拟 用 户 信息 数据 库 表 的 更 新 事件 流 和 一 个 网 站 搜索 事件 流 ， 然 后 
将 这 3 个 流连 接 起 来 ， 从 而 得 到 用 户 活动 的 360” 视 图 ， 比 如 用 户 每 分 钟 的 搜索 内 容 、 点 
击 的 内 容 以 及 感 兴趣 的 内 容 。 这 些 连接 操作 为 数据 分 析 提 供 了 丰富 的 数据 集 。 产 品 推荐 一 
般 就 是 基于 这 些 信息 进行 的 ， 比 如 用 户 搜 索 了 自行 车 ， 点 击 了 “Trek” 的 链接 ， 并 且 爱 好 
旅游 ， 那 么 就 可 以 向 用 户 推 荐 Trek 自行 车 、 头 番 和 具有 异国 情调 的 自行 车 骑 行 活动 (比如 
去 内 布 拉 斯 加 州 ) 。 


应 用 的 配置 与 前 一 个 例子 很 相似 ， 所 以 这 里 跳 过 这 一 步 ， 直 接 进入 到 构建 连接 流 要 使 用 到 
的 拓扑 。 


KStream<Integer, PageView> views = 

builder .stream(Serdes.Integer(), 

new PageViewSerde(), Constants.PAGE_VIEW_TOPIC); © 
KStream<Integer, Search> searches = 
builder.stream(Serdes.Integer(),new SearchSerde(), 
Constants .SEARCH_TOPIC); 

KTable<Integer, UserpProfile> profiles = 
builder.table(Serdes.Integer(), new Pro-fileSerde(), 
Constants.USER_PROFILE_TOPIC, "profile-store"); @ 
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KStream<Integer, UserActivity> viewsWithprofile = views.leftJoin(profiles,© 
(page, profile) -> new UserActivity(profile.getUserID(), 
profile.getUserName(), profile.getZzipcode(), 
profile.getInterests(), "", page.getPage())); @ 
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KStream<Integer, UserActivity> userActivityKStream = 
viewsWithprofile.leftJoin(searches,© 
(userActivity, search) -> 
userActivity.updateSearch(search.getSearchTerms()),O 
JoinWindows.of(1000), Serdes.Integer(), 
new UserActivitySerde(), new Searchserde()); @ 


@ 首先 为 点 击 事件 和 搜索 事件 创建 流 对 象 。 








@ 为 用 户 信息 定义 一 个 KTable。 
@ 将 点 击 事件 流 与 信息 表 连 接 起 来 ， 将 用 户 信 息 
操作 里 ， 每 个 事件 都 会 收 到 来 自信 息 表 缓存 副本 里 的 信息 。 
如 果 有 的 点 击 事件 没有 匹配 的 用 户 信息 ， 这 些 事 件 仍然 会 
它 接受 两 个 参数 ， 





@ 这 是 连接 方法 ， 








KTable 是 本 地 缓存 ， 可 以 通过 变 

















更 流 来 对 其 

填充 到 点 击 事件 里 。 在 一 个 流 和 表 的 连接 
这 是 一 个 左 连接 操作 ， 所 以 

被 保留 下 来 。 

一 个 来 自 事件 流 ， 一 个 来 自 表 记 录 ， 并 返回 一 个 值 。 











进行 更 新 。 





























如 果 是 在 数据 库 里 ， 必 须知 道 如 何 将 两 个 值 合并 成 一 个 结果 。 这 里 创建 了 一 个 activity 


对 象 ， 它 包 


含 了 用 户 的 详细 信息 和 用 户 浏览 过 的 页 面 。 





@ 接 下 来 要 将 点 击 信息 


,和 用 户 的 搜索 事 





接 的 是 两 个 流 ， 而 不 是 流 和 表 。 


@ 这 是 连接 方法 ， 这 
@ 这 是 最 有 意思 的 部 分 








所 有 的 点 击 事件 和 所 有 的 搜索 























里 只 是 简单 地 将 搜索 关键 词 添加 到 匹配 的 页 








下 视 








六 ， 流 和 流 之 间 的 连接 是 基于 相同 的 时 间 窗 口 。 





了 件 连 接 起 来 ， 关 








F 没 有 什么 意义 ， 我 


了 件 连 接 起 来 。 这 也 是 一 个 左 连接 操作 ， 不 过 现在 连 


图 。 
a 





搜索 事件 和 点 击 事件 连接 起 来 。 具 有 相关 性 的 点 击 事件 应 该 发 生 在 搜索 之 后 的 一 小 段 时 


间 内 。 所 以 这 里 定义 了 一 个 一 
事件 才 被 认为 是 具有 相关 性 的 ， 而 且 搜索 关键 词 也 会 
的 活动 记录 里 ， 这 样 有 助 于 对 搜索 和 搜索 结果 进行 








一 秒 钟 的 连接 时 间 窗 口 。 














在 搜索 之 后 的 一 
被 放 进 包含 了 点 击 信 . 
全 面 的 分 析 。 


秒 钟 内 发 生 的 点 击 
息 和 用 户 信息 








定义 了 流程 之 后 ， 用 它 生 成 Kafkastreams 对 象 ， 并 运行 它 ， 就 像 之 前 的 “字数 统计 ”那个 





例子 一 样 。 





这 个 例子 演示 了 两 种 不 同类 型 的 连接 模式 ， 
这 个 与 在 数据 仓库 里 运 
连接 基于 时 间 窗 口 的 两 个 流 。 这 种 操作 只 会 


流 的 事件 里 。 





二 入 本 


偿 们 伍 











一 个 是 连接 流 和 表 ， 用 于 将 于 





查询 时 加 入 一 个 维度 的 寻 
在 流 式 处 理 中 出 现 。 





了 实 表 有 点 相似 。 


和 


完整 的 例子 和 运行 说 明 可 以 在 GitHub (https://github.com/gwenshap/kafka-clickstream-enrich/ 


tree/master) 上 找到 。 


11.5 Kafka Streams 的 架构 概览 





11.4.3 市 的 例子 演示 了 如 何 使 用 Streams API 实现 流 式 处 型 
Streams 的 工作 原理 和 它 的 伸缩 性 ， 下 


构建 拓扑 


少 会 实现 和 执行 一 个 拓扑 。 
是 一 个 操作 和 变换 的 集合 ， 
11-10 所 示 。 





11.5.1 
每 个 流 式 应 用 程序 至 
即 有 向 无 环 图 ) 





字数 统计 示例 里 ， 拓 扑 妈 











看 深入 了 解 API 到 





结构 如 医 























里 的 设计 模式 。 为 了 更 好 地 理解 
背后 的 设计 原则 。 


拓扑 (在 其 他 流 式 处 理 框架 里 叫 作 DAG， 
每 个 事件 从 输入 到 输 出 都 会 流 流 经 





竺 它 。 在 之 前 的 
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按照 键 分 组 


重 分 区 主题 














图 11-10: 字数 统计 示例 的 拓扑 结构 


哪怕 是 一 个 很 简单 的 应 用 ， 都 需要 一 个 拓扑 。 拓 扑 是 由 处 理 器 组 成 的 ， 这 些 处 理 器 是 拓扑 
图 里 的 节点 (用 椭圆 表示 )。 大 部 分 处 理 器 都 实现 了 一 个 数据 操作 一 一 过 滤 、 映 射 、 聚 合 
等 。 数 据 源 处 理 器 从 主题 上 读 取 数 据 ， 并 传 给 其 他 组 件 ， 而 数据 池 处 理 器 从 上 一 个 处 理 器 
接收 数据 ， 并 将 它们 生成 到 主题 上 。 拓 扑 总 是 从 一 个 或 多 个 数据 源 处 理 器 开始 ， 并 以 一 个 
或 多 个 数据 池 处 理 器 结束 。 


11.5.2 ”对 拓扑 进行 伸缩 


Streams 通过 在 单个 实例 里 运行 多 个 线程 和 在 分 布 式 应 用 实例 间 进 行 负 载 均衡 来 实现 伸缩 。 
用 户 可 以 在 一 台 机 器 上 运行 Streams 应 用 ， 并 开启 多 个 线程 ， 也 可 以 在 多 台 机 器 上 运行 
Streams 应 用 。 不 管 采用 何 种 方式 ， 所 有 的 活动 线程 将 会 均衡 地 处 理工 作 负 载 。 

Streams 引擎 将 拓扑 拆 分 成 多 个 子 任务 来 并 行 执 行 。 拆 分 成 多 少 个 任务 取决 于 Streams 5 
警 ， 同 时 也 取决 于 主题 的 分 区 数量 。 每 个 任务 负责 一 些 分 区 : 任务 会 订阅 这 些 分 区 ， 并 
从 分 区 读 取 事件 数据 ， 在 将 结果 写 到 数据 地 之 前 ， 在 每 个 事件 上 执行 所 有 的 处 理 步 又 。 
这 些 任务 是 Streams 引擎 最 基本 的 并 行 单元 ， 因 为 每 个 任务 可 以 彼此 独立 地 执行 ， 如 医 
11-11 所 示 。 




































































































































































图 11-11: 运行 相同 拓扑 的 两 个 任务 一 一 每 个 读 取 主 题 的 一 个 分 区 





流 式 处 理 | 203 








开发 人 员 可 以 选择 每 个 应 用 程序 使 用 的 线程 数 。 如 果 使 用 了 多 个 线程 ， 每 个 线程 将 会 执行 
一 部 分 任务 。 如 果 有 多 个 应 用 实例 运行 在 多 个 服务 器 上 ， 每 个 服务 器 上 的 每 一 个 线程 都 会 
执行 不 同 的 任务 。 这 就 是 流 式 应 用 的 伸缩 方式 : 主题 里 有 多 少 分 区 ， 就 会 有 多 少 任务 。 如 




















果 想 要 处 理 得 更 快 ， 就 添加 更 多 的 线程 。 如 果 一 台 服 务 器 的 








资源 被 用 光 了 ， 就 在 另 一 台 服 


务 器 上 启动 应 用 实例 。Kafka 会 自动 地 协调 工作 ， 它 为 每 个 任务 分 配属 于 它们 的 分 区 ， 每 


个 任务 独自 处 理 自己 的 分 区 ， 并 维护 与 聚合 相关 的 本 地 状态 ， 




















如 图 11-12 所 示 。 























图 11-12: 处 理 任务 可 以 运行 在 多 个 线程 和 多 个 服务 器 上 
大 家 或 许 已 经 注意 到 ， 有 时 候 一 个 步骤 需要 处 理 来 自 多 个 分 

















区 的 结果 ， 这 样 就 会 在 任务 之 


























间 形 成 依赖 。 例 如 ， 在 点 击 事件 流 的 例子 里 对 两 个 流 进行 了 连接 ， 在 生成 结果 之 前 ， 需 要 
从 每 一 个 流 的 分 区 里 获取 数据 。Streams 将 连接 操作 所 涉及 的 分 区 全 部 分 配给 相同 的 任务 ， 











这 样 ， 这 个 任务 就 可 以 从 相关 的 分 区 读 取 数据 ， 并 独立 执行 连接 操作 。 这 也 就 是 为 什么 





Streams 要 求 同 一 个 连接 操作 所 涉及 的 主题 必须 要 有 相同 数目 的 分 区 ， 而 且 要 基于 连接 所 





使 用 的 键 进行 分 
如 有 果 应 用 程序 需要 进行 重新 分 区 ， 也 会 在 任务 之 间 形 成 依赖 


lxl 














里 ， 所 有 的 事件 使 用 用 户 ID 作为 键 。 如 果 想 要 基于 页 面 或 者 邮政 编码 生成 统计 信息 该 怎 
么 办 ? 此 时 就 需要 使 用 邮政 编码 对 数据 进行 重新 分 区 ， 并 在 新 分 区 上 运行 聚合 操作 。 如 果 











任务 1 处 理 来 自分 区 1 的 数据 ， 这 些 数据 到 达 另 一 个 处 理 器 














。 例 如 ， 在 点 击 事件 流 的 例子 




















， 这 个 处 理 器 对 数据 进行 重新 


分 区 (groupBy 操作 )， 它 需要 对 数据 进行 shuffle， 也 就 是 把 数据 发 送 给 其 他 任务 进行 处 
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理 。 与 其 他 流 式 处 理 框架 不 一 样 的 是 ，Streams 通过 使 用 新 的 键 和 分 区 将 事件 写 到 新 的 主 
题 来 实现 重新 分 区 ， 并 启动 新 的 任务 从 新 主题 上 读 取 和 处 理事 件 。 重 新 分 区 的 步 又 是 将 拓 
扑 拆 分 成 两 个 子 拓扑 ， 每 个 子 拓扑 都 有 自己 的 任务 集 ， 如 图 11-13 所 示 。 第 二 个 任务 集 依 
赖 第 一 个 任务 集 ， 因 为 它们 处 理 的 是 第 一 个 子 拓扑 的 结果 。 不 过 ， 它 们 仍然 可 以 独立 地 并 
行 执行 ， 因 为 第 一 个 任务 集 以 自己 的 速率 将 数据 写 到 一 个 主题 上 ， 而 第 二 个 任务 集 也 以 自 
己 的 速率 从 这 个 主题 读 取 和 处 理事 件 。 两 个 任务 集 之 间 不 需要 通信 ， 也 没有 共享 资源 ， 而 
且 它们 也 不 需要 运行 在 相同 的 线程 里 或 相同 的 服务 器 上 。 这 是 Kafka 提供 的 最 有 用 的 特性 
之 一 一 减少 管道 各 个 部 分 之 间 的 依赖 。 










































































11-13: 处 理 主题 分 区 事件 的 两 组 任务 


11.5.3 ”从 故障 中 存活 下 来 


Streams 的 伸缩 模型 不 仅 允 许 伸缩 应 用 ， 还 能 优雅 地 处 理 故 障 。 首 先 ， 包 括 本 地 状态 在 内 
的 所 有 数据 被 保存 到 有 高 可 用 性 的 Kafka 上 。 如 果 应 用 程序 出 现 故 障 需 要 重启 ， 可 以 从 
Kafka 上 找到 上 一 次 处 理 的 数据 在 流 中 的 位 置 ， 并 从 这 个 位 置 开始 继续 处 理 。 如 果 本 地 状 
态 丢 失 (比如 可 能 需要 将 服务 器 替换 掉 ) ， 应 用 程序 可 以 从 保存 在 Kafka 上 的 变更 日 志 重 
新 创建 本 地 状态 。 


Streams 还 利用 了 消费 者 的 协调 机 制 来 实现 任务 的 高 可 用 性 。 如 果 一 个 任务 失败 ， 只 要 还 
有 其 他 线程 或 者 应 用 程序 实例 可 用 ， 就 可 以 使 用 另 一 个 线程 来 重启 该 任务 。 这 类 似 于 消费 
者 群 组 的 故障 处 理 ， 如 果 一 个 消费 者 失效 ， 就 把 分 区 分 配给 其 他 活跃 的 消费 者 。 


11.6 流 式 处 理 使 用 场景 


前 面 已 经 讲解 了 如 何 进行 流 式 处 理 一 一 从 一 般 性 的 概念 和 模式 说 起 ， 并 列举 了 一 些 
Streams 的 例子 。 现 在 是 时 候 让 大 家 知道 流 式 处 理 都 有 哪些 常见 的 使 用 场景 了 。 本 章 的 开 
头 解 释 过 ， 如 果 想 快速 处 理事 件 ， 而 不 是 为 每 个 批 次 等 上 儿 个 小 时 ,但 又 不 是 真 的 要 求 写 
秒 级 的 响应 ， 那 么 流 式 处 理 (或 者 说 持续 处 理 ) 就 可 以 派 上 用 场 了 。 话 是 没 错 ， 不 过 听 起 
来 仍然 十 分 抽象 。 下 面 来 看 一 些 例子 ， 它 们 都 使 用 流 式 处 理 来 解决 实际 的 问题 。 
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客户 服务 


假设 你 向 一 个 大 型 的 连锁 酒店 预订 了 一 个 房间 ， 并 希望 收 到 邮件 确认 和 票据 。 在 预订 了 
几 分 钟 之 后 ,仍然 没 有 收 到 确认 邮件 ， 于 是 打 电 话 向 客服 确认 。 客 服 的 回复 是 :“ 我 在 
我 们 的 系统 里 看 不 到 订单 ， 不 过 从 预订 系统 加 载 数据 的 批 次 作业 每 天 只 运行 一 次 ， 所 以 
请 明天 再 打 电 话 过 来 。 你 应 该 可 以 在 2~3 个 工作 日 之 后 收 到 确认 邮件 。 这 样 的 服务 有 
点 糟糕 ， 不 过 有 人 已 经 不 止 一 次 地 在 一 家 大 型 连锁 酒店 遭遇 过 类 似 的 问题 。 我 们 真正 需 
要 的 是 ， 连 锁 酒店 的 每 一 个 系统 在 预订 结束 之 后 的 几 秒 钟 或 者 儿 分 钟 之 内 都 能 发 出 通 
知 ， 包 括 客服 中 心 、 酒 店 、 发 送 确认 邮件 的 系统 、 网 站 等 。 有 的 用 户 可 能 还 希望 客服 中 











心 能 够 立即 获知 自己 在 这 家 连锁 酒店 的 历史 人 住 数 据 ， 






































前 台 能 够 知道 他 是 一 个 忠实 的 客 


户 ， 从 而 提供 更 高 级 别 的 服务 。 如 果 使 用 流 式 处 理应 用 来 构建 这 些 系 统 ， 就 可 以 实现 几 
近 实 时 的 接收 和 处 理 这 些 事件 ， 从 而 带 来 更 好 的 用 户 体验 。 如 果 有 这 样 的 系统 ， 就 可 以 











在 儿 分 钟 之 内 收 到 邮件 确认 ， 信 用 卡 就 可 以 及 时 扣 款 ， 
上 回答 有 关 预 订房 间 的 问题 了 。 


物 联网 








然后 发 送 票据 ， 服 务 台 就 可 以 马 


物 联网 包含 很 多 东西 ， 从 用 于 调 市 温度 和 自动 添加 洗衣 剂 的 家 居 设 备 ， 到 制药 行业 的 实 
时 质量 监控 设备 。 流 式 处 理 在 传感器 和 设备 上 应 用 ， 最 为 常见 的 是 用 于 预测 何 时 该 进行 
设备 维护 。 这 个 与 应 用 监控 有 点 相似 ， 不 过 这 次 是 应 用 在 硬件 上 ， 而 且 应 用 在 很 多 不 同 
的 行业 一 一 制造 业 、 通 信 (识别 故障 基站 )、 有 线 电 视 (在 用 户 投 诉 之 前 识别 出 故障 机 





























顶 盒 ) 等 。 每 一 种 场景 都 有 自己 的 特点 ， 不 过 目标 是 






































样 的 一 一 处 理 大 量 来 自 设备 的 事 





件 ， 并 识别 出 一 些 模式 ， 这 些 模式 预示 着 某 些 设 需要 进行 维护 ， 比 如 交换 机 数据 包 的 














下 降 、 生 产 过 程 中 需要 更 大 的 力气 来 拧紧 螺丝 ， 或 者 用 户 频繁 重启 有 线 电视 的 机 顶 盒 。 
。 欺诈 检测 。 其 诈 检测 也 被 叫 作 异 常 检 查 ， 是 一 个 非常 广泛 的 领域 ， 专 注 于 捕捉 系统 





中 的 “ 作 次 者 ”或 不 良 分子 ， 比 如 信用 卡 欺 诈 、 股 




















票 交 易 欺 诈 、 视 频 游 戏 作 浴 或 者 


网 络 安全 风险 。 在 这 些 欺 诈 行为 造成 大 规模 的 破坏 之 前 ， 越 早 将 它们 识别 出 来 越 好 。 





一 个 几 近 实时 的 系统 可 以 快速 地 对 事件 作出 响应 ， 





停止 一 个 还 没有 通过 审核 的 交易 

















要 比 等 待 批 次 作业 在 3 天 之 后 才 发 现 它 是 一 个 欺诈 交易 要 更 容易 处 理 。 这 也 是 一 个 


在 大 规模 事件 流 里 识别 模式 的 问题 。 





在 网 络 安全 领域 ， 有 一 个 被 称 为 发 信 标 (beaconing) 的 欺诈 手法 ， 黑 客 在 组 织 内 部 
放置 恶意 软件 ， 该 软件 时 不 时 地 连接 到 外 部 网 络 接收 命令 。 一 般 来 说 ， 网 络 可 以 抵 

















挡 来 自 外 部 的 攻击 ， 但 难以 阻止 内 部 到 外 部 的 突围 。 
常 访问 的 某 些 IP 地 址 ， 在 蒙受 更 











流 ， 识 别 出 不 正常 的 通信 模式 ， 检 测 出 该 主机 不 经 
大 的 损失 之 前 向 安全 组 织 发 出 告警 。 


11.7 ”如 何 选 择 流 式 处 理 框架 





通过 处 理 大 量 的 网 络 连接 事件 


在 比较 两 个 流 式 处 理 系统 时 ， 要 着 重 考虑 使 用 场景 是 什么 。 以 下 是 一 些 需 要 萎 虑 的 应 


用 类 别 。 


摄取 


摄取 的 目的 是 将 数据 从 一 个 系统 移动 到 另 一 个 系统 ， 寺 


F 在 传输 过 程 中 对 数据 进行 一 些 修 

















改 ， 使 其 更 适用 于 目标 系统 。 
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低 延 巡 
任何 要 求 立即 得 到 响应 的 应 用 。 有 些 欺诈 检测 场景 就 属于 这 一 类 。 
异步 微服 务 
这 些微 服务 为 大 型 的 业务 流程 执行 一 些 简单 操作 ， 比 如 更 新 仓储 信息 。 这 些 应 用 需要 通 
过 维护 本 地 状态 缓存 来 提升 性 能 。 











几 近 实时 的 数据 分 析 
这 些 流 式 媒体 应 用 程序 执行 复杂 的 聚合 和 连接 ， 以 便 对 数据 进行 切 分 ， 并 生成 有 趣 的 业 
务 见解 。 


选择 何 种 流 式 处 理 系 统 取 决 于 要 解决 什么 问题 。 


。 如 果 要 解决 摄取 问题 ， 那 么 需要 考虑 一 下 是 需要 一 个 流 式 处 理 系统 还 是 一 个 更 简单 的 专 
注 于 摄取 的 系统 ， 比 如 Kafka Connect。 如 果 确 定 需要 一 个 流 式 处 理 系 统 ， 那 就 要 确保 
它 拥 有 可 用 的 连接 器 ， 并 且 要 保证 目标 系统 也 有 高 质量 的 连接 器 可 用 。 

。 如 果 要 解决 的 问题 要 求 毫 秒 级 的 延迟 ， 那 么 就 要 孝 虑 一 下 是 否 一 定 要 用 流 。 一 般 来 说 ， 
请 求 与 响应 模式 更 加 适用 于 这 种 任务 。 如 果 确 定 需 要 一 个 流 式 处 理 系统 ， 那 就 需要 选择 
一 个 支持 低 延 迟 的 模型 ， 而 不 是 基于 微 批 次 的 模型 。 

。 如 果 要 构建 异步 微服 务 ， 那 么 需要 一 个 可 以 很 好 地 与 消息 总 线 (希望 是 Kafka) 集成 的 

流 式 处 理 系 统 。 它 应 该 具备 变更 捕捉 能 力 ， 这 样 就 可 以 将 上 游 的 变更 传递 到 微服 务 本 地 

的 缓存 里 ， 而 且 它 要 支持 本 地 存储 ， 可 以 作为 微服 务 数据 的 缓存 和 物化 视图 。 

。 如 果 要 构建 复杂 的 数据 分 析 引 擎 ， 那 么 也 需要 一 个 支持 本 地 存储 的 流 式 处 理 系 统 ， 不 过 

这 次 不 是 为 了 本 地 缓存 和 物化 视图 ， 而 是 为 了 支持 高 级 的 聚合 、 时 间 窗 口 和 连接 ， 因 为 

如 果 没 有 本 地 存储 ， 就 很 难 实现 这 些 特性 。API 需要 支持 自 定义 聚合 、 基 于 时 间 窗 口 的 
操作 和 多 类 型 连接 。 

除了 使 用 场景 外 ， 还 有 如 下 一 些 全 局 的 考虑 点 。 


系统 的 可 操作 性 
它 是 否 容易 部 署 ? 是否 容易 监控 和 调试 ? 是 否 易于 伸缩 ? 它 是 否 能 够 很 好 地 与 已 有 的 基 
础 设施 集成 起 来 ? 如果 出 现 错误 ， 需 要 重新 处 理 数 据 ， 这 个 时 候 该 怎么 办 ? 

API 的 可 用 性 和 调试 的 简单 性 
为 了 开发 出 高 质量 的 应 用 ， 同 一 种 框架 的 不 同 版 本 可 能 需要 耗费 不 同 的 时 间 ， 这 类 情况 
很 常见 。 开 发 时 间 和 上 市 时 机 太 重 要 了 ， 所 以 我 们 需要 选择 一 个 高 效率 的 系统 。 

让 复杂 的 事情 简单 化 
几乎 每 一 个 系统 都 声称 它们 支持 基于 时 间 窗 口 的 高 级 聚合 操作 和 本 地 缓存 ， 但 问题 是 ， 
它们 够 简单 吗 ? 它们 是 处 理 了 规模 伸缩 和 故障 恢复 方面 的 细节 问题 ， 还 是 只 提供 了 脆弱 
的 抽象 ， 然 后 让 你 来 处 理 剩 下 的 事情 ?系统 提供 的 API 越 简洁 ， 封 装 的 细节 越 多 ， 开 
发 人 员 的 效率 就 越 高 。 

社区 
大 部 分 流 式 处 理 框 架 都 是 开源 的 。 对 于 开源 软件 来 说 ， 一 个 充满 生气 的 社区 是 不 可 替代 
的 。 好 的 社区 意味 着 用 户 可 以 定期 获得 新 的 功能 特性 ， 而 且 质量 相对 较 高 (没有 人 会 使 
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用 糟糕 的 软件 )， 缺 陷 可 以 很 快 地 得 到 修复 ， 而 且 用 户 的 问题 可 以 及 时 得 到 解答 。 这 也 
意味 着 ， 如 果 遇 到 一 个 奇怪 的 问题 并 在 Google 上 搜索 ， 可 以 搜索 到 相关 的 信息 ， 因 为 
其 他 人 也 在 使 用 这 个 系统 ， 而 且 也 遇 到 了 相同 的 问题 。 


11.8 总 结 


本 章 的 开头 解释 了 流 式 处 理 ， 给 出 了 流 式 处 理 范 式 的 规范 定义 ， 介 绍 了 它 的 一 些 常 见 属 
性 ， 并 将 它 与 其 他 编程 范式 进行 了 比较 。 

然后 列举 了 3 个 基于 Kafka Streams 开发 的 应 用 程序 ， 以 此 来 解释 一 些 非常 重要 的 流 式 处 
理 概 念 。 

在 详 述 了 这 些 示例 之 后 ， 我 们 给 出 了 Kafka Streams 的 架构 概览 ， 并 解释 了 它 的 内 部 原理 。 
最 后 提供 了 一 些 流 式 处 理 的 使 用 场景 ， 给 出 了 一 些 用 于 比较 流 式 处 理 框架 的 建议 ， 并 以 此 
结束 本 书 。 
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Kafka 基本 上 就 是 一 个 Java 应 用 程序 ， 所 以 它 可 以 运行 在 任何 一 个 可 以 安装 JRE 的 系统 
上 。 不 过 ， 它 针对 Linux 系统 进行 了 优化 ， 因 此 可 以 获得 最 好 的 性 能 。 如 果 让 它 运 行 在 
其 他 系统 上 ， 有 可 能 会 出 现 与 特定 操作 系统 相关 的 问题 。 所 以 ， 在 桌面 操作 系统 上 进行 
Kafka 开发 或 测试 时 ， 最 好 能 够 让 它 运 行 在 虚拟 机 里 ， 这 个 虚拟 机 最 好 能 与 生产 环境 的 配 
置 相 匹配 。 


A.1 在 Windows 上 安装 Kafka 


截止 到 Windows 10， 可 以 通过 两 种 方式 来 运行 Kafka。 传 统 的 方式 是 使 用 本 地 的 Java 安装 
包 。Windows 10 用 户 还 可 以 使 用 Windows 的 Linux 子 系统 。 推 荐 使 用 第 二 种 方式 ， 因 为 
它 提 供 了 与 生产 环境 最 为 相似 的 配置 ， 所 以 这 里 就 从 这 种 方式 开始 说 起 。 


A.1.1 使 用 Windows 的 Linux 子 系统 


如 果 使 用 的 是 Windows 10， 就 可 以 通过 Windows 的 Linux 子 系统 (WSL) 来 安装 原生 的 
Ubuntu 支持 。 在 本 书 英 文 版 出 版 时 ， 微 软 仍然 只 是 把 它 当 成 一 个 实验 特性 。 它 有 点 像 是 一 
个 虚拟 机 ， 但 不 像 虚 拟 机 那样 需要 那么 多 资源 ， 却 提供 了 更 丰富 的 系统 集成 。 

可 以 按照 微软 开发 者 网 络 Bash on Ubuntu on Windows (https://msdn.microsoft.com/en-us/ 
commandline/wsl/about) 页 面 所 提供 的 说 明 来 安装 WSL。 安 装 完 WSL 后 ， 需 要 通过 apt- 
get 来 安装 JDK。 


$ sudo apt-get install openjdk-7-jre-headless 
[sudo] password for username: 
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Reading package lists... Done 
Building dependency tree 
Reading state information... Done 


[0] 


done. 


$ 
安装 完 JDK 后 ， 再 根据 第 2 章 的 说 明 来 安装 Kafka。 


A.1.2 ”使 用 本 地 Java 


如 果 你 使 用 的 是 旧版 本 的 Windows， 或 者 不 想 使 用 WSL 环境 ， 那 么 可 以 使 用 Windows 
的 Java 环境 来 运行 Kafka。 不 过 要 注意 的 是 ， 这 可 能 会 引入 Windows 环境 所 特有 的 问题 。 
Kafka 开发 社区 可 能 不 会 注意 到 这 些 问题 ， 因 为 Kafka 的 开发 者 很 少 会 在 Windows 上 运行 
Kafka。 


在 安装 Zookeeper 和 Kafka 之前， 必须 有 一 个 Java 环境 。 建 议 安装 最 新 版 本 的 Oracle Java 8， 
可 以 在 Oracle Java SE 下 载 页面 找 到 最 新 版 的 JDK。 下 载 完 整 版 的 JDK， 这 样 就 可 以 拥有 所 
有 的 Java 工具 ， 然 后 按照 指示 一 步 一 步 安装 JDK 即 可 。 

注意 安装 路 径 

在 安装 Java 和 Kafka 时 ， 建 议 把 它们 安装 在 不 包含 空格 的 目录 里 。 
Windows 允许 路 径 里 包含 空格 ， 但 基于 UNIX 环境 设计 的 应 用 程序 不 支持 
包含 空格 的 路 径 ， 而 且 要 指定 不 同 的 路 径 也 很 困难 。 在 安装 Java 时 要 谨 
记 这 一 点 。 例 如 ， 如 果 安 装 JDK 1.8 update 121， 可 以 把 它 安装 在 C:\Java\ 
jdk1.8.0_121 路 径 中 。 



























































在 安装 完 Java 后 ， 要 设置 环境 变量 。 环 境 变量 可 以 在 Windows 的 控制 面板 里 设置 ， 根 
据 操作 系统 版 本 的 不 同 ， 它 的 位 置 可 能 不 一 样 。 在 Windows 10 中 ， 先 选择 “系统 和 安 
全 ”， 再 选择 “系统 ”， 然 后 单 击 “ 计 算 机 名 、 域 和 工作 组 设置 ”里 的 “更 改 设置 ”按钮 ， 
这 样 就 可 以 打开 一 个 “系统 属性 ”窗口 ， 选 择 “ 高 级 ”选项 卡 ， 然 后 单 击 “环境 变量 ” 
按钮 。 这 里 添加 一 个 名 为 JAVA_HOME 的 用 户 变量 (图 A-1)， 并 把 它 的 值 设 为 Java 的 
安装 目录 ， 然 后 修改 Path 系统 变量 ， 往 里 面 添加 一 个 新 条 目 多 JAVA_HOME%\bin。 保 
存 配置 ， 退 出 控制 面板 。 


接 下 来 可 以 安装 Kafka 了 。 安 装 包 里 已 经 包含 了 Zookeeper， 所 以 不 需要 再 单独 安装 
Zookeeper。 当 前 版 本 的 Kafka 可 以 从 http://kafka.apache.org/downloads.html 上 下 载 。 在 本 
书 英文 版 出 版 时 ，Kafka 的 版 本 是 0.10.1.0， 相 应 的 Scala 版 本 是 2.11.0。 下 载 的 文件 经 过 
GZip 压缩 ， 并 通过 tar 来 打包 ， 所 以 需要 Windows 的 加 压缩 工具 (如 8Zip) 来 解压 。 与 在 
Linux 系统 上 安装 Kafka 类 似 ， 必 须 为 Kafka 选择 一 个 解压 目录 。 这 里 假设 Kafka 被 解压 
到 C:\kafka_2.11-0.10.1.0。 
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You must be logged on as an Admini 
Performance 
Visual effects, processor schedulin¢ 


memory User variabl 


Variable 


Desktop settings related to your sig| 
OneDrive 


Path 
TEMP 


Startup and Recovery TMP 


System startup, system failure, andi 


Variable name: 


Variable value: 


OS 
Path 
PATHEXT 








Computer Name Hardware Advanced System Protection Remote 


es for live 


Value 


User Profiles ChocolateyLastPathUpdate Mon Apr 17 10:51:22 2017 
ChocolateyToolsLocation Ci\tools 


Ci\Users\live\OneDrive 
WUSERPROFILE%\AppData\Local\Microsoft\WindowsApps; 
%USERPROFILE%\AppData\LocaN\Temp 
WUSERPROFILE%\AppData\LocaN\Temp 


JAVA_HOME 


C:VavaNdk1.8.0 121 


Browse Directory... Browse File... Cancel 


NUMBER OF PROCESSORS 4 


Windows_NT 
C\Windows\system32;C:\Windows;C:\Windows\System32\Wbe... 
‘COM;.EXE;.BAT;.CMD;.VBS;.VBE;.JS;.JSE;.WSF;.WSH;.MSC 


PROCESSOR_ARCHITECTURE AMD64 
PROCESSOR _IDENTIFIER Intel64 Family 6 Model 78 Stepping 3, Genuinelntel 


New... Edit... 








A-1: 添加 JAVA_HOME 变量 





在 Windows 下 运行 Zookeeper 和 
理 文件 而 不 是 shell 脚本 。 批 处 理 





Kafka 有 一 点 不 一 样 ， 因 为 必须 使 用 Windows 特有 的 批 处 
文件 不 支持 在 后 端 运行 应 用 程序 ， 所 以 每 一 个 应 用 程序 都 




















需要 一 个 单独 的 shell。 先 启动 Zookeeper: 


PS C:\> cd kafka 2.11-0.10.2.0 

PS C:\kafka_ 2.11-0.10.2.0> bin/windows/zookeeper-server-start.bat C: 
\kafka_2.11-0.10.2.0\config\zookeeper .properties 

[2017-04-26 16:41:51,529] INFO Reading configuration from: C: 
\kafka_2.11-0.10.2.0\config\zookeeper .properties (org.apache.zoo 
keeper .server .quorum.QuorumpeerConfig) 





[x 


[2017-04-26 16:41:51,595] INFO minSessionTimeout set to -1 (org.apache.zoo 
keeper .server .ZooKeeperServer) 

[2017-04-26 16:41:51,596] INFO maxSessionTimeout set to -1 (org.apache.zoo 
keeper .server .ZooKeeperServer) 

[2017-04-26 16:41:51,673] INFO binding to port 0.0.0.0/0.0.0.0:2181 
(org.apache.zookeeper .server.NIOServerCnxnFactory) 


在 Zookeeper 开始 运行 之 后 ， 打 玫 








F 男 一 个 窗口 来 启动 Kafka: 
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PS C:\> cd kafka 2.11-0.10.2.0 

PS C:\kafka 2.11-0.10.2.0> .\bin\windows\kafka-server-start.bat C: 
\kafka_2.11-0.10.2.0\config\server .properties 

[2017-04-26 16:45:19,804] INFO KafkaConfig values: 

[| 

[2017-04-26 16:45:20,697] INFO Kafka version : 0.10.2.0 (org.apache.kafka.com 
mon.utils.AppInfoparser) 

[2017-04-26 16:45:20,706] INFO Kafka commitId : 576d93a8dcQcf421 
(org.apache.kafka.common.utils.AppInfoparser) 

[2017-04-26 16:45:20,717] INFO [Kafka Server 0], started (kafka.server.Kafka 
Server) 


A.2 在 MacOS 上 安装 Kafka 


苹果 的 MacOS 运行 在 Darwin 上 ， 一 个 基于 FreeBSD 的 UNIX 操作 系统 。 也 就 是 说 ,在 
MacOS 上 运行 应 用 程序 与 在 UNIX 系统 上 是 差不多 的 ， 所 以 在 MacOS 上 安装 为 UNIX 而 
设计 的 应 用 程序 (如 Kafka) 不 会 有 太 大 难度 。 可 以 通过 包 管 理 器 (如 Homebrew) 来 安装 
Java 和 Kafka， 也 可 以 手动 安装 它们 ， 这 样 可 以 自由 选择 版 本 。 























A.2.1 使 用 Homebrew 


如 果 已 经 在 MacOS 上 安装 了 Homebrew (https:Wbrew.sh) ， 就 可 以 用 它 来 安装 Kafka。 这 样 
可 以 确保 先 安装 Java， 然 后 再 安装 Kafka 0.10.2.0 (在 本 书 英文 版 出 版 时 )。 


如 果 还 没有 安装 Homebrew， 请 先 按照 Homebrew 安装 页 面 (https://docs.brew.sh/Installation. 
html) 上 提供 的 步骤 安装 Homebrew， 然 后 用 它 来 安装 Kafka。Homebrew 会 确保 先 安装 所 有 
的 依赖 项 ， 包 括 Java。 


$ brew install kafka 

==> Installing kafka dependency: zookeeper 

[a 

==> Summary 

/usr/local/Cellar/kafka/0.10.2.0: 132 files, 37.2MB 
$ 


Homebrew 会 将 Kafka 安装 到 /usr/local/Cellar 目录 ， 不 过 文件 会 被 链接 到 其 他 目录 。 


。 二 进 制 文件 和 脚本 文件 在 /usr/local/bin 目录 下 。 

。 Kafka 配置 文件 在 /usr/local/etc/kafka 目录 下 。 

。 Zookeeper 配置 文件 在 /usr/local/etc/zookeeper 目录 下 。 

。 log.dirs (Kafka 的 数据 目录 ) 被 设置 为 /usr/local/var/lib/kafka-logs。 


安装 完毕 后 ， 就 可 以 启动 Zookeeper 和 Kafka (把 Kafka 运行 在 前 台 ) 了 : 


$ /usr/local/bin/zkServer start 

JMX enabled by default 

Using config: /usr/LocaL/etc/zookeeper/zoo.cfg 

Starting zookeeper ... STARTED 

$ kafka-server-start.sh /usr/local/etc/kafka/server .properties 


[i 
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[2017-02-09 20:48:22,485] INFO [Kafka Server 0]，started (kafka.server .Kafka 
Server) 


A.2.2 手动 安装 


至 





在 MacOS 上 手动 安装 Kafka 与 在 Windows 上 类 似 ， 需 要 先 安 装 JDK。 可 以 从 Oracle Java 
SE 下载 页 面 上 找到 MacOS 的 JDK 版 本 ， 然 后 下 载 Kafka。 这 里 假设 下 载 的 Kafka 被 解压 
上 /usr/local/kafka_2.11-0.10.2.0 目录 。 

















在 MacOS 上 启动 Zookeeper 和 Kafka 与 在 Linux 上 类 似 ， 只 不 过 要 确保 设置 了 正确 的 


JAVA_HOME 变量 : 


$ export JAVA_HOME=` /usr/libexec/java_home. 

$ echo $JAVA_HOME 
/Library/Java/JavaVirtualMachines/jdk1.8.0._131.jdk/Contents/Home 

$ /usr/local/kafka_ 2.11-0.10.2.0/bin/zookeeper-server-start.sh -daemon /usr/ 
local/kafka_2.11-0.10.2.0/config/zookeeper .properties 

$ /usr/local/kafka 2.11-0.10.2.0/bin/kafka-server-start.sh /usr/local/etc/kafka/ 
server .properties 

[2017-04-26 16:45:19,804] INFO KafkaConfig values: 

[有 

[2017-04-26 16:45:20,697] INFO Kafka version : 0.10.2.0 (org.apache.kafka.com 
mon.utils.AppInfoparser) 

[2017-04-26 16:45:20,706] INFO Kafka commitId : 576d93a8dcgcf421 
(org.apache.kafka.common.utiLs.AppInfoParser) 

[2017-04-26 16:45:20,717] INFO [Kafka Server 0], started (kafka.server.Kafka 
Server) 
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封面 介绍 
本 书 封面 上 的 动物 是 一 只 蓝 起 笑 童 鸟 。 笑 型 乌 属 于 理 鸟 笠 ， 生 活 在 新 几内亚 南部 和 澳 大 利 
亚 北部 。 


雄性 笑 殿 鸟 拥 有 五 颜 六 色 的 羽毛 ， 起 膀 和 尾部 的 羽毛 是 蓝 色 的 ， 唆 性 笑 昔 鸟 的 尾部 则 是 红 
棕色 ， 带 有 黑色 的 条 纹 。 雄 性 和 雌性 医 浊 鸟 都 有 奶油 色 的 腹部 ， 伴 有 棕色 的 条 纹 ， 它 们 的 
虹膜 是 白色 的 。 成 年 笑 插 鸟 的 体型 要 比 其 他 型 鸟 小 一 些 ， 平 均 身 长 38 到 43 厘米 ， 体 重 在 
260 克 到 330 克之 间 。 

蓝 翅 笑 芥 乌 偏 爱 肉 食 ， et a 在 夏季 ， 它 们 捕捉 蜥 蝎 、 昆 贝 和 青蛙 为 
食 ， 而 在 干燥 的 季节 ， 它 们 则 多 以 小 龙虾 、 鱼 、 哮 次 类 动物 和 小 型 的 鸟 类 为 食 。 不 过 ,在 
以 鸟 类 为 食 的 食物 链 里 ， 0 硅 鸟 为 食 。 

9 月 到 12 月 是 蓝 起 笑 辜 鸟 的 繁殖 季节 ， 它 们 把 梨 穴 筑 在 树 的 上 方 ， 通 过 社区 协作 的 方式 养 
育 下 一 代 ， 一 对 笑 理 岛 至 少 会 得 到 另外 一 只 笑 理 鸟 的 帮助 。 它 们 一 般 会 花 大 概 26 天 的 时 
间 来 多 蛋 ， 每 次 多 3 到 4 只 蛋 。 锥 鸟 如 果 能 够 正常 玻 壳 而 出 ， 那 么 大 概 36 天 后 就 会 长 出 
羽毛 。 蛙 出 生 的 锥 乌 会 在 第 一 周 内 尝试 杀 死 更 小 的 锥 鸟 。 成 年 笑 翠 乌 会 花 上 6 到 8 周 的 时 
间 来 训练 那些 存活 下 来 的 小 鸟 怎样 捕食 。 

O’Reilly 封面 上 的 很 多 动物 都 是 濒危 物种 ， 它 们 对 整个 世界 都 很 重要 。 如 果 你 想 为 保护 动 
物 做 些 贡 献 ， 可 以 访问 animals.oreilly.com。 


封面 图 片 来 自 English Cyclopedia。 
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Kafka 权 威 指南 


每 个 应 用 程序 都 会 产生 数据 ， 包 括 日 志 消息 、 度 量 指标 、 用 户 活 动 记 
录 、 响 应 消息 等 。 如 何 移动 数据 ， 几 乎 变 得 与 数据 本 身 一 样 重要 。 如 果 
你 是 架构 师 、 开 发 者 或 者 产品 工程 师 ， 同 时 也 是 Apache Kafka 新 手 ， 那 
么 这 本 实践 指南 将 会 帮助 你 成 为 流 式 平台 上 处 理 实时 数据 的 专家 。 


本 书 由 出 身 于 LinkedIn 的 Kafka 核 心 作者 和 一 线 技术 人 员 共 同 执笔 ， 详 细 
介绍 了 如 何 部 署 Kafka 集 群 、 开 发 可 靠 的 基于 事件 驱动 的 微服 务 ， 以 及 基 
于 Kafka 平 全 构建 可 伸缩 的 流 式 应 用 程序 。 通 过 详尽 示例 ， 你 将 会 了 解 到 
Kafka 的 设计 原则 、 可 靠 性 保证 、 关 键 API|， 以 及 复制 协议 、 控 制 器 和 存 


储 层 等 架构 细节 。 


国 了 解 发 布 和 订阅 消息 模型 以 及 该 模型 如 何 被 应 用 在 大 数据 生态 系 


统 中 


国 探索 Kafka 如 何 成 为 流 式 处 理 利器 


学 习 使 用 Kafka 生 产 者 和 消费 者 来 生成 消息 和 读 取消 息 
了 解 Kafka 保 证 可 靠 性 数据 传递 的 模式 和 场景 需 ; 

使 用 Kafka 构 建 数据 管道 和 应 用 程序 的 最 佳 实践 

在 生产 环境 中 管理 Kafka， 包 括 监控 、 调 优 和 维护 

了 解 Kafka 的 关键 度量 指标 


“Kafka 正 在 成 为 管理 和 处 理 流 式 


数据 的 利器 …… 学 会 基于 持续 数 
据 流 构建 应 用 程序 着 实 是 一 个 巨 
大 的 思维 转变 。 借 助 本 书 来 学 习 
Kafka 再 好 不 过 了 ， 从 内 部 架构 
到 API， 都 是 由 极为 了 解 Kafka 
的 人 亲手 呈现 的 。 我 希望 你 们 能 
够 像 我 一 样 喜欢 这 本 书 。” 
一 一 Jay Kreps 
Kafka 核 心 作者 ， 
Confluent 联 合 创始 人 、CEO 





Neha Narkhede，Confluent 联 合 
创始 人 、CTO， 曾 在 LinkedIn 主 
导 基 于 Kafka 和 Apache Samza 构 
建 流 式 基础 设施 ， 是 Kafka 作 者 
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Gwen Shapira，Confluent 系 统 
架构 师 ， 帮 助 客户 构建 基于 
Kafka 的 系统 ， 在 可 伸缩 数据 
架构 方面 拥有 十 余年 经 验 ， 曾 
任 Cloudera 公 司 解决 方案 架构 
师 。 另 著 有 《Hadoop 应 用 架 
构 》。 


Todd Palino，Linkedln 主 任 级 
SRE， 负 责 部 署 管理 大 型 的 
Kafka、Zookeeper 和 Samza 集 
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如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 
或 作 译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨 论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebook@turingbook.com。 
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